为 什么 要 写 这 本 书 


我 接触 大 数据 技术 的 时 间 算 是 比较 早 的 ， 四 五 生 


前 当 大 数据 这 个 词 火 遍 互联 网 的 时 候 ， 我 就 已 经 在 实验 室 里 学 习 编程 及 算法 的 知识 。 那 个 时 候 我 一 心 想 要 做 学 术 ， 每 天 阅读 大 量 的 英文 文献 ， 主 要 兴趣 


更 多 的 是 在 机 器 人 和 人 工 智 能 上 。 研 究 生 毕业 时 我 本 来 想 实现 早先 的 愿望 ， 继 续 攻读 博士 学 位 ， 不 过 思 来 想 去 觉得 不 应 该 错过 大 数据 这 个 机 会 ， 所 以 毅然 决定 投入 大 数据 行业 中 。 


在 工作 之 初 ， 市 面 上 已 经 存在 一 些 介绍 大 数据 相关 技术 的 权威 著作 ， 其 中 很 多 还 是 很 底层 的 


作 。 所 以 我 读 过 很 多 的 相关 图 书 ， 这 确实 为 我 以 后 的 工作 打下 了 坚实 的 基础 ， 不 过 随 着 工作 内 容 


这 些 专业 著作 ， 


而 且 每 个 人 的 情况 各 不 相同 ， 有 的 是 编程 基础 


， 有 的 是 数学 基础 差 ， 有 的 是 英 


或 特定 领域 的 专著 。 但 即使 是 我 这 种 自 读 为 “学 院 派 ”的 人 看 这 些 书 ， 头 脑 也 会 经 常 开 小 
的 技术 又 特别 庞杂 ， 包 括 计算 框架 、 网 络 隐 虫 、 机 器 学 习 算法 、 编 程 语言 、 数 据 库 、 文 本 分 析 、 数 据 流水 线 的 架构 ， 甚 至 还 包括 前 端 可 视 化 等 众多 方面 ， 


。 而 大 数据 相关 
只 有 对 它们 都 有 涉猎 ， 才 能 更 好 地 胜任 相关 的 工 


的 增加 ， 以 及 新 同事 的 到 来 ， 更 多 的 问题 相继 涌现 。 首 当 其 冲 的 就 是 ， 并 不 是 每 个 人 都 有 足够 的 基础 来 阅读 


语 基础 


是 为 读者 讲 明 


所 有 技术 背后 的 原理 ， 而 是 告诉 读者 某 项 技术 可 以 


于 哪些 工作 中 ， 哪 些 工 作 需 


哪些 工具 。 


读 完 这 本 手册 ， 可 以 帮助 读者 建立 一 个 相对 完整 的 大 数据 生态 的 概念 ， 其 中 所 讲 的 每 一 个 工具 都 值得 读者 进行 更 深入 的 研究 (你 也 可 以 像 我 一 样 ， 对 其 中 的 两 三 项 进行 非常 深入 的 研究 ) ， 
你 会 成 为 该 领域 的 专家 。 如 果 现 在 正在 看 这 本 书 的 你 是 一 位 技术 决策 者 ， 那 么 我 希望 本 书 的 介绍 能 帮助 你 下 定 决心 使 


过 程 中 ， 


它 能 快速 编码 ， 且 具有 强大 的 字符 串 处 理 能 力 ， 拥 有 大 量 成 熟 的 大 数据 类 库 ， 这 些 都 使 Python 成 为 数据 科学 领域 无 可 争议 的 No.1 语 言 ; 或 许 你 的 团队 可 以 仅 上 
然 本 书 介绍 的 是 单机 的 简化 版 ) 就 能 大 幅度 地 提升 工作 的 效率 。Scrapy 可 能 是 候 


， 这 也 导致 我 的 这 套 学 习 方法 难以 推广 开 来 。 所 以 我 想 写 一 本 关于 大 数据 技术 的 手册 ， 其 目的 并 不 


也 许 在 研究 


中 的 某 项 技术 ， 比 如 写作 全 书 的 Python 语言 就 是 一 门 非常 好 的 数据 处 理 语 
Python 编写 大 规模 分 布 式 疏 虫 程序 ( 虽 


阅读 门槛 ， 你 可 以 从 零 基础 开始 学 习 ， 并 体验 整个 学 习 过 程 所 带 来 的 愉悦 。 


读者 对 象 


根据 工作 职责 的 不 同 ， 我 为 本 书 划分 出 了 一 些 可 能 的 读者 ， 具 体 如 下 。 


: 想 要 了 解 大 数据 生态 的 学 生 。 


“ 需要 快速 入 门 大 数据 的 技术 人 员 。 


: 需要 了 解 技术 细节 以 做 决策 的 技术 管理 者 。 


“ 希望 入 门 Python 但 不 知 如 何 下 手 的 编程 爱好 者 。 


如 何 阅读 本 书 


本 书 分 为 三 部 分 ， 其 


了 领域 最 有 名 的 框架 了 ， 你 也 可 以 像 我 一 样 实现 


属于 你 自己 的 版 本 。 当 然 这 本 书 也 是 一 本 Python 入 门 书 ， 所 以 读者 无 须 担心 


中 第 1 ~ 4 章 是 Python 基础 ， 这 个 部 分 会 介绍 阅读 本 书 所 必须 掌握 的 Python 知识 ， 但 并 不 会 包含 很 复杂 的 编程 知识 ， 比 如 面向 对 象 编程 就 不 是 必要 的 ， 因 为 Python 支持 过 程式 编 


程 ， 可 以 直接 编写 函数 ， 


使 用 这 种 方式 编程 更 适合 教学 ， 


和 第 三 方 工具 。 


学 习 这 些 工具 可 以 让 我 们 快速 地 实现 某 些 简单 的 算法 ， 而 不 


因为 所 有 的 执行 步骤 都 是 线性 的 ， 方 便 逐 步 讲解 。 第 5 ~ 7 章 讲 解 的 是 Python 直接 提供 的 数据 处 理工 


花费 大 量 的 时 间 “ 


及 Python 主要 擅长 的 几 个 领域 : 统计 、 爬 虫 、 科 学 计算 、Hadoop&Spark 中 
码 ， 如 何 安装 完整 Python 开发 环境 ， 以 及 一 些 常 


勘误 和 支持 


由 于 笔者 的 水 平 有 限 ， 编 写 的 时 间 也 很 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 不 准确 的 地 方 ， 
为 : https://github.com/magigo/data_science too| book_code。 你 可 以 将 书 中 的 错误 发 布 在 lssues 中 ， 或 者 向 我 提问 ， 我 会 尽 可 能 地 回答 你 的 问题 。 
页 为 : https://www.zhihu.com/people/ji-lu-15-70。 如 果 你 有 更 多 的 宝贵 意见 ， 也 欢迎 你 发 送 邮 件 至 我 的 邮箱 magi-go@126.com， 我 很 期 


请 我 回答 ， 这 样 就 能 


更 多 的 人 受益 于 你 的 问题 ， 我 的 知 乎 


重复 造 轮子 ”， 


集成 、 图 计算 等 。 


的 Python 技巧 ， 如 处 理 时 间 、 文 件 VO 等 。 


待 能 够 听 到 你 们 的 真挚 反馈 。 


致谢 


首先 要 感谢 “仁慈 的 独裁 者 ” 吉 多 . 范 罗 苏 姆 (Guido van Rossum) ， 他 在 我 出 生 的 那 一 
与 Python 似乎 真 的 有 着 某 种 缘分 ， 不 仅 出 生年 份 相同 ， 生 


感谢 机 械 工业 出 版 社 华 


， 这 些 工 的 数据 结构 、 标 准 库 


包括 一 些 易 有 


Python 处 理 数据 的 高 效 性 在 此 处 将 体现 得 淋漓 尽 致 。 第 8 ~ 12 章 是 一 些 实际 的 案例 ， 将 会 涉 


最 后 的 三 个 附录 分 别 介绍 了 关于 Python 的 一 些 扩展 知 识 ， 比 如 如 何 编写 同时 兼容 Python 2 和 Python 3 的 代 


(1989: 


) 发 明了 Python 编程 语言 ， 


公司 的 编辑 Lisa 邀 请 我 写作 本 书 ， 刚 


想 这 本 书 与 读者 见面 的 时 间 还 会 延 后 。 


当 也 相同 ， 不 知道 吉 多 是 否 知道 1989 年 正好 也 是 我 国 的 农历 蛇 生 


F 呢 。 


轧 请 读者 批评 指正 。 另 外 本 书 的 部 分 代码 会 上 传 到 Github 上 ， 其 网 址 


当然 如 果 是 比较 好 的 问题 我 也 希望 你 能 在 知 平 上 邀 


不 仅 为 我 带 来 了 一 份 全 职 的 工作 ， 还 为 我 带 来 了 无 尽 的 乐趣 。 而 且 我 


始 时 我 乐观 地 估计 本 书 很 快 就 能 写作 完成 。 不 过 就 像 大 多 数 软件 项 目 一 样 一 一 它 延 期 了 。 感 谢 Lisa 在 百 忙中 适时 地 督促 我 写作 ， 没 有 她 我 


最 后 我 要 特别 感谢 我 的 爸爸 、 妈 妈 和 前 女友 (你 知道 我 要 强调 “前 ”这 个 字 ) ， 感 谢 你 们 促进 了 我 的 身心 成 长 ， 是 你 们 促使 我 变 得 像 现在 这 般 强 大 ! 


说 以 此 书 ， 献 给 我 最 亲爱 的 家 人 ， 以 及 众多 热爱 Python 的 朋友 们 。 


最 近 一 年 


， 知 乎 社 


第 0 章 


我 是 如 何 改行 做 数据 挖掘 的 ? 说 来 也 巧 ， 我 本 科 是 学 电子 的 ,而 


德 去 世 之 后 ,将 近 1400 


F 没 人 做 先知 了 ， 既 没有 人 可 以 指导 我 ， 也 没有 可 以 效仿 的 对 象 。2011 生 


发 现 、 出 发 


F 到 2013 年 发 生 了 一 系列 导 


纪 路 


中 国 ， 北 京 ，2017 年 1 月 


区 有 不 少 朋 友 邀 请 我 回答 关于 数据 挖掘 的 问题 ， 其 中 提问 最 多 的 是 关于 “如 何 改行 做 数据 挖掘 ”。 我 想 他 们 之 所 以 邀请 我 回答 这 类 问题 ， 不 是 因为 我 做 数据 挖掘 做 得 好 ， 而 是 好 奇 
究 生 是 学 控制 的 ， 而 我 的 职业 理想 是 成 为 一 个 “先知 ”， 但 我 并 不 知道 如 何 才能 实现 这 一 职业 理想 。 
有 件 ， 包 括 1IBM 的 沃 森 在 “危险 边缘 ”节目 中 击败 了 人 类 选手 、Google Brain 某 些 


自 公 元 632 年 人 类 最 后 一 位 先知 默 罕 默 


成 果 的 展示 、 美 国 统计 学 家 Nate Silver 对 于 总 统 大 选 的 预测 等 ， 这 些 事件 都 有 一 个 共同 点 ， 那 就 是 让 “数据 科学 ”从 学 术 研究 晓 变 为 实际 的 应 用 。 这 也 让 我 意识 到 也 许 我 可 以 做 得 更 好 一 通过 “数据 科 
学 ”建造 一 个 “先知 ” ， 虽 然 直到 现在 我 还 没有 实现 这 个 目标 ， 不 过 我 愿意 把 这 一 路 积累 的 经 验 拿 出 来 与 大 家 分 享 ， 希 望 这 些 东西 能 够 帮助 各 位 读者 实现 自己 的 目标 ， 或 者 找到 自己 的 目标 。 现 在 ， 就 让 我 
们 出 发 吧 ! 


0.1 何谓 数据 科学 


在 家 用 计算 机 普及 之 前 ， 数 学 、 逻 辑 学 、 哲 学 及 自然 科学 研究 的 目的 都 是 为 了 追求 完美 的 理论 证 明 ， 或 者 是 提供 某 种 确定 性 的 规则 ， 用 以 解释 某 种 自然 现象 ， 或 者 为 某 些 技术 提供 理论 依据 。 那 个 时 候 
人 类 产生 数据 的 能 力 和 收集 数据 的 能 力 还 很 有 限 ， 或 许 公司 的 经 营 账目 和 计算 导弹 发 射 弹道 的 演算 纸 就 属于 数据 最 集中 的 地 方 了 。 在 那个 年 代 ， 这 些 数据 分 析 和 处 理 的 工作 大 都 是 由 人 工 完 成 的 ， 最 多 也 只 
会 借助 某 些 由 机 械 或 电子 构成 的 计算 装置 罢了 。 在 互联 网 兴起 之 后 ， 人 类 将 现实 世界 中 的 很 多 信息 以 数据 的 形式 存储 到 网 络 空间 中 ， 比 如 生活 中 发 生 的 一 段 故事 ， 或 者 旅行 中 家 人 的 照片 ， 这 些 数据 记录 了 
人 类 的 行为 和 社会 的 发 展 ， 甚 至 包括 了 自然 环境 的 变化 。 当 今 ， 大 量 的 、 各 种 各 样 的 数据 快速 产生 ， 并 存储 在 互联 网 中 ， 而 这 些 数据 自然 而 然 地 构成 了 一 个 人 造 的 环境 ， 称 为 数据 界 (data nature) 。 通 过 
对 数据 界 中 数据 的 研究 ， 我 们 不 仅 可 以 了 解数 据 本 身 的 种 类 、 状 态 、 属 性 及 变化 形式 和 规律 ， 还 能 从 中 洞悉 人 类 的 某 些 行为 ， 了 解 人 类 的 某 些 社会 属性 。 并 且 这 些 研究 方法 还 能 扩展 到 其 他 依赖 数据 的 学 科 
中 ， 比 如 气象 科学 、 地 震 科 学 、 金 融 学 、 基 因 科 学 ， 等 等 。 在 可 以 预见 的 未 来 ， 我 相信 ， 不 仅 在 互联 网 行业 中 会 有 数据 科学 家 的 身影 ， 在 各 行 各 业 中 ， 只 要 与 计算 机 打交道 ， 我 们 就 不 得 不 为 已 经 产生 和 将 
要 产生 的 数据 做 好 充分 的 准备 。 所 以 ， 我 认为 在 这 个 数字 化 的 时 代 ， 不 同 的 专业 领域 ， 都 需要 从 大 量 的 数据 中 寻找 到 一 系列 的 理论 和 实践 ， 这 就 是 数据 科学 。 


0.1.1 海量 的 数据 与 科学 的 方法 


“如 何 才能 成 功 ? ”无 数 成 功 学 方面 的 书本 和 布道 者 都 没 法 给 出 一 个 方程 或 流程 图 来 向 所 有 人 解释 这 一 过 程 。 最 多 只 能 根据 统计 学 (或 者 是 脐 想 ) 列举 出 一 些 可 能 的 必要 条 件 ， 比 如 努力 、 机 遇 、 贵 人 
或 仅仅 只 是 运气 好 。 我 们 能 否 对 人 类 的 行为 做 一 个 精确 的 建 模 ? 太 难 了 ， 比 如 ， 不 同 的 人 对 于 成 功 的 定义 不 同 ， 有 的 人 认为 挣 钱 是 成 功 ， 有 的 人 认为 出 名 是 成 功 。 再 比如 就 算 大 家 都 认为 成 为 企业 家 可 以 算 
作 某 种 意义 上 的 成 功 ， 但 是 企业 的 种 类 又 各 有 不 同 ， 有 的 人 是 在 电 商 领域 成 功 的 ， 有 的 人 是 在 金融 行业 成 功 的， 他 们 的 成 功 经 历 也 各 不 相同 。 


事实 上 ， 关 于 “成 功 ” 的 变量 我 可 以 列举 无 数 个 ， 但 即使 穷尽 了 所 有 可 能 的 变量 ， 也 还 会 遇 至 | 数据 缺失 的 问题 一 一 个 人 成 功 之 前 的 数据 又 该 如 何 准 确 地 记录 ? 这 个 世界 有 60 亿 人 ， 如 果 每 个 人 出 生 时 就 
携带 一 个 电子 记录 仪 ， 那 么 就 可 以 记录 这 个 人 生活 中 发 生 的 所 有 事情 。 这 有 可 能 么 ”可 能 ， 不 仅 是 可 能 的 ， 而 且 我 们 现在 就 在 做 类 似 的 事情 ， 智 能 手机 正 源源 不 断 地 收集 人 类 的 数据 并 且 存 储 到 网 络 中 ， 我 
们 购物 的 数据 、 兴 趣 的 数据 、 人 口 统计 学 的 数据 等 都 将 用 作 描 述 我 们 每 一 个 人 的 “数字 化 身 ”， 这 是 存在 于 网 络 中 的 我 们 。 并 且 随 着 智能 硬件 、 物 联网 、 工 业 4.0 的 推进 ， 整 个 现实 生活 中 的 人 类 社会 在 网 络 
中 都 会 有 一 份 “ 副 本 ”。 为 了 处 理 这 些 数据 ， 并 且 从 中 找到 对 我 们 有 价值 的 结果 ， 需 要 更 先进 的 技术 与 方法 ， 其 中 将 会 涉及 数据 的 收集 、 转 换 、 存 储 、 可 视 化、 分 析 与 解释 等 内 容 ， 这 将 会 是 一 项 非常 有 价 
值 的 课题 。 


0.1.2 ”数据 科学 并 不 是 新 概念 


在 过 去 的 几 年 中 ， 大 数据 、 人 工 智能 、 数 据 挖掘 等 词汇 被 媒体 炒 得 热火 朝天 ， 一 方面 我 乐于 见 到 我 所 从 事 的 工作 受到 人 们 的 关注 ， 另 一 方面 我 也 发 现 越 来 越 多 的 人 开始 疑惑 。 就 像 本 书 开篇 中 所 提 到 的 
那样 ， 我 每 天 都 会 收 到 来 自 不 同 工 作 领 域 的 人 (有 时 候 是 记者 或 化 工 专业 的 从 业者 ， 有 时 候 是 程序 员 或 数学 系 的 学 生 ， 有 时 是 一 些 在 实际 工作 中 遇 到 困难 的 工程 师 ) 的 提问 ， 有 的 是 希望 能 澄清 一 些 概念 ， 
有 的 是 问 如 何 入 门 ， 有 的 是 希望 我 针对 他 遇 到 的 麻烦 提 一 些 建议 。 我 很 乐意 帮助 他 们 ， 顺 便 抱 怨 一 下 某 些 不 负责 任 的 媒体 ， 是 它们 把 大 数据 吹 得 天 花 乱 验 ， 把 各 种 神秘 的 力量 都 赋予 数据 科学 ， 好 像 数据 科 
学 家 就 是 新 时 代 的 先知 一 样 ， 能 够 预测 未 来 ， 改 变 人 类 的 命运 。 而 且 媒 体 给 公众 传递 的 信息 是 这 样 的 : 大 数据 是 上 个 月 才 出 现 的 ，Google 在 上 周 才 提出 了 深度 学 习 方 法 ， 一 举 解决 了 人 工 智能 难题 。 我 担心 
在 这 样 冒 进 的 社会 氛围 下 ， 这 些 被 扭曲 的 报道 掩盖 了 事实 的 真相 ， 那 些 对 这 个 领域 感 兴 趣 的 人 会 被 吓 跑 ， 这 颗 科学 史上 的 新 星 会 陨落 (在 我 收 到 过 的 提问 里 ， 甚 至 有 人 问 : 大 数据 的 浪潮 是 不 是 过 去 了 ， 现 
在 学 还 来 得 及 么 ?) 。 如 果 要 追溯 数据 科学 的 起 源 ， 可 以 从 1974 年 在 美国 和 瑞典 同时 出 版 的 《计算 机 方法 的 简明 调查 》 一 书 中 看 到 ， 作 者 彼得 -诺尔 对 数据 科学 下 过 这 样 的 定义 “数据 科学 是 处 理 数据 的 科 
学 ,一 旦 数据 与 其 所 代表 的 事物 的 关系 被 建立 起 来 ， 就 能 为 其 他 领域 与 科学 提供 借鉴 ”。 


性 


在 “大 数据 ”出 现 以 前 ， 统 计 学 家 觉得 他 们 所 做 的 就 是 数据 科学 ， 他 们 会 通过 分 析 一 些 数据 来 为 公司 或 政府 提供 一 些 决策 上 的 帮助 。 比 如 ， 大 型 上 市 公司 的 财报 ， 或 者 每 一 次 美国 大 选 之 前 所 做 的 民意 
调查 就 属于 此 类 范畴 。 当 然 ， 不 能 认为 互联 网 时 代 的 数据 科学 是 新 瓶装 旧 酒 ， 经 历 了 这 么 多 年 的 沉淀 和 积累 ， 加 上 广泛 的 需求 ， 数 据 科学 发 展 出 了 一 套 与 之 相 适应 的 理论 和 方法 。 我 也 希望 能 帮助 更 多 的 人 
了 解数 据 科学 ， 促 进 数据 科学 的 发 展 。 


0.1.3 ”数据 科学 是 一 个 系统 工程 


现代 工业 界 喜 欢 谈 生 态 和 闭环 ， 其 实数 据 科 学 也 要 贯穿 数据 的 整个 生命 周期 。 下 面 将 数据 的 生命 周期 简单 地 划分 为 如 下 几 个 阶段 。 


. 数据 采集 


“ 数据 处 理 


“ 数据 查询 与 可 视 化 


数据 采集 传统 的 手段 主要 来 自 于 经 营 数 据 和 网 络 怜 虫 采集 的 数据 。 现 在 还 包含 一 些 “ 数 据 化 ”的 过 程 ，2013 年 一 篇 题 为 “The Rise of Big Data” (大 数据 的 崛起 ) 的 文章 中 提 到 了 “数据 化 ”的 概 
念 ， 即 数据 化 是 一 种 流程 ， 可 以 将 生活 中 的 方方面面 转化 为 数据 。 各 种 手机 上 的 传感器 ， 智 能 穿戴 等 设备 采集 数据 的 过 程 都 属于 数据 化 。 


数据 清洗 主要 负责 处 理 数据 中 的 噪声 或 缺失 数据 。 由 于 填写 表单 时 的 琉 忽 ， 或 者 是 怜 虫 程序 的 故障 ， 再 或 者 是 传感器 失灵 等 原因 ， 总 是 会 产生 一 些 我 们 意料 之 外 的 数据 ， 这 些 数据 可 能 不 符合 某 些 格式 
的 要 求 ， 或 者 会 缺失 部 分 数据 ， 需 要 通过 数据 清洗 来 剔除 或 修正 这 些 数据 。 如 果 数 据 量 巨大 ， 这 就 需要 我 们 有 处 理 海量 数据 的 能 力 。 


数据 处 理 可 以 使 用 统计 学 的 方法 或 机 器 学 习 的 方法 从 数据 中 发 现 我 们 想 要 的 价值 ， 通 常 所 说 的 数据 挖 握 就 是 在 这 一 步 中 进行 的 。 之 所 以 这 里 没有 使 用 “数据 挖 所 ”这 个 词 ， 是 因为 有 些 时 候 ， 在 某 些 项 
目 中 仅仅 使 用 简单 的 统计 方法 就 可 以 得 出 很 有 价值 的 结论 ， 并 没有 使 用 数据 挖掘 的 专门 技法 。 而 且 ， 与 普通 人 的 直觉 相反 ， 数 据 挖 气 结 果 的 价值 往往 是 通过 与 业务 的 紧密 结合 才能 体现 出 来 的 ， 胡 乱 套用 算 
法 往往 得 不 出 任何 有 价值 的 东西 。 比 如 ， 通 过 历史 房产 中 介 的 销售 数据 (包括 房屋 的 价格 、 面 积 、 层 数 、 每 层 住户 数 等 信息 ) 来 为 新 的 楼 盘 定价 、 预 测 目标 客户 群体 就 是 两 个 不 同 任务 ， 前 者 通常 只 需要 简 
单 统计 (实际 上 我 们 过 去 一 直 就 在 这 么 做 ) 即 可 ， 而 后 者 可 能 就 要 使 用 分 类 预测 算法 了 。 


数据 查询 与 数据 可 视 化 这 两 项 是 为 了 将 处 理 过 后 的 数据 呈现 给 需要 的 人 。 有 的 时 候 是 需要 索引 巨 量 的 数据 ， 比 如 搜索 引擎。 有 的 时 候 是 规律 性 的 结果 需要 以 图 表 的 形式 呈现 ， 比 如 一 些 信息 图 (尽管 目 


前 大 多 数 信息 图 都 是 人 工 统计 的 数据 ) ， 或 者 在 处 理 之 前 对 大 数据 集 进行 探索 。 


上 面 列举 的 几 个 阶段 ， 每 一 个 都 面临 着 巨大 的 挑战 ， 虽 然 工业 界 有 一 些 解决 方案 ， 但 离 成 熟 还 远 得 很 。 并 且 在 面 对 不 同 的 公司 、 不 同 的 开发 人 员 、 不 同 的 业务 需求 时 ， 要 将 这 几 个 阶段 有 机 地 整合 起 来 
更 是 难 上 加 难 。 在 其 中 起 到 核心 作用 的 人 就 称 为 “数据 科学 家 ”。 


0.2 ”如 何 成 为 数据 科学 家 


读者 应 该 知道 这 个 问题 很 难 回答 ， 失 败 的 原因 总 是 相似 的 ， 成 功 的 经 历 却 各 有 不 同 。 从 来 没有 人 靠 复制 他 人 的 经 历 就 能 获得 同样 的 成 就 ， 就 像 “ 人 不 能 两 次 踏 入 同一 条 河流 ”的 哲学 观点 一 样 ， 没 有 人 
可 以 复制 别人 的 经 历 ， 更 何 谈 成 就 。 因 此 在 回答 这 个 问题 时 ， 我 只 假设 一 些 概念 上 的 前 提 条 件 : 良好 的 计算 机 科学 基础 ， 较 高 的 英文 读 写 水 平 ， 极 强 的 自学 能 力 ， 还 有 一 些 个 人 品质 比如 耐心 、 毅 力 、 乐 于 
分 享 ， 等 等 。 不 过 最 重要 的 还 是 “兴趣 ”， 我 相信 能 花 上 几 十 块 钱 购买 这 本 书 的 读者 一 定 是 有 兴趣 的 ， 因 为 这 本 书 是 给 那些 对 数据 科学 有 一 些 了 解 ， 希 望 学 习 具体 方法 的 人 准备 的 。 所 以 ， 即 使 上 面 所 说 的 
前 提 条 件 你 一 个 都 不 具备 ， 只 要 有 兴趣 ， 那 么 让 我 们 从 现在 就 开始 吧 。 


我 需要 数学 或 计算 机 科学 的 学 位 吗 


最 好 有 ! 如 果 你 恰好 是 在 校 大 学 生 ， 又 碰 I5 学 习 数 学 或 计算 机 相关 专业 (在 这 个 程序 员 匮乏 的 年 代 ， 所 有 必修 C 语 言 的 专业 都 称 为 “计算 机 相关 专业 ”) ， 希 望 你 能 学 习 好 学 校 的 课程 ， 下 面 是 一 份 技 
能 清单 ， 如 果 其 中 有 一 些 技能 没有 在 你 的 课程 安排 里 ， 那 么 最 好 是 通过 选修 或 自学 的 方式 进行 补充 。 


“ 一 门 编程 语言 


“ 算法、 数据库、 操作 系 统 


' 概率 与 统计 、 线 性 代数 


' 英语 


对 于 已 经 错过 了 花季 、 雨 季 的 社会 人 来 讲 ， 如 果 你 并 非 从 事 计 算 机 程序 开发 的 相关 工作 ， 上 述 几 项 技能 对 你 来 说 可 能 要 求 太 高 了 。 不 过 ， 你 还 是 需要 多 付出 一 些 努力 来 补 上 这 些 知识 ， 当 然 是 在 读 过 本 
书 之 后 。 得 益 于 互联 网 的 发 达 ， 很 多 教学 资源 都 能 够 从 网 上 获取 ， 这 里 也 向 各 位 读者 推荐 一 些 好 的 网 站 。 


“ 编程 学 习 : 
https://www.codecademy.com/ 


https://www.codeschool.com/ 


这 是 国外 的 两 家 编程 学 习 网 站 ， 拥 有 交互 式 解释 器 、 美 观 的 讲义 ， 有 一 些 课程 还 有 手把手 的 视频 教程 ， 可 能 读 英文 对 你 来 说 有 点 慢 ， 不 过 这 是 一 个 好 的 开始 。 


http://www.brpreiss.com/books/opus7/ 


这 是 由 布鲁诺 -R: 普 莱 斯 所 著 的 一 系列 算法 图 书 的 在 线 版 ， 包 括 C++ 版 、Java 版 、C# 版 、Python 版 、Ruby 版 、Lua 版 、Per| 版 、PHP 版 、Objective-C 版 等 ， 你 能 想到 的 常用 编程 语言 都 有 对 应 的 版 本 ， 
它们 中 的 一 部 分 有 过 正式 引进 的 中 文 版 ， 或 者 有 爱好 者 翻译 的 版 本 ， 当 然 推 荐 阅读 原版 。 


外 ， 本 书 会 带领 读者 复习 一 下 概率 与 统计 和 线性 代数 的 基本 概念 ， 以 及 介绍 一 些 SQL 方面 的 知识 。 最 后 ， 不 要 忘记 本 书 的 目的 是 通过 数据 科学 实战 学 习 Python 编 程 。 希 望 读者 在 读 过 这 本 书 之 后 ， 能 
有 充分 的 知识 来 支持 后 续 的 学 习 。 


0.3 为 什么 是 Python 


通过 书 名 ， 各 位 读者 就 应 该 知道 这 是 一 本 讲解 Python 编程 的 书 了 。 数 据 科学 只 是 个 引子 ， 我 希望 能 通过 相关 的 例子 和 练习 激发 出 读者 的 兴趣 ， 帮 助 读者 除 挤 编 程 这 条 拦路 虎 。 在 很 多 非 计算 机 相关 专业 
的 人 的 概念 里 ， 编 程 是 要 妥 为 玄学 分 类 的 ， 通 过 一 堆 意 义 不 明 的 符号 就 能 驱动 计算 机 完成 各 种 各 样 的 任务 ， 是 不 是 有 点 像 魔法 师 口中 所 念 的 咒语 。 但 事实 上 ， 计 算 机 只 能 做 两 件 事情 ， 执 行 计算 并 记录 结 
果 ， 只 不 过 它 的 这 两 项 能 力 远 远 超 过 人 类 大 脑 的 能 力 (读者 可 能 看 过 一 些 文章 ， 其 中 有 些 研究 声称 尝试 估算 过 人 类 大 脑 的 计算 能 力 ， 发 现 人 脑 的 计算 能 力 仍然 比 现今 最 先进 的 计算 机 还 要 快 很 多 倍 。 但 是 人 
类 大 脑 中 有 些 模块 ， 比 如 视觉 、 语 言 ， 是 人 类 经 过 亿 万 年 的 演化 ， 大 自然 进行 极致 优化 所 产生 的 结果 。 这 里 对 于 计算 和 存储 能 力 的 比较 仅 是 指数 学 计算 和 文字 存储 方面 ) 。 以 我 正在 使 用 的 笔记 本 来 说 ， 其 
拥有 主 频 为 2.5GHz 的 双核 处 理 器 ， 总 计 约 等 于 50 人 Z 次 / 秒 的 计算 速度 。 而 512GB 的 硬盘 则 可 以 存储 10 万 本 书 ( 按 每 本 书 5MB 计 算 ， 实 际 上 5MB 大 小 的 书 应 该 算是 鸿 篇 巨著 了 。 假 如 按 UTF-8[1 编码 ， 每 个 中 
文 占 3 ~ 4 个 字 节 (byte) ， 而 5MB 约 有 500 万 个 字 节 ， 这 至 少 是 一 本 百 万 字 的 书 ) 。 如 果 想 要 使 用 计算 机 这 种 能 力 强大 的 工具 ， 就 需要 掌握 一 门 编程 语言 ， 用 来 和 计算 机 进行 沟通 。 虽 然 我 也 想 为 各 位 读者 
科普 一 下 众多 的 编程 语言 ， 不 过 这 毕竟 是 一 本 教授 Python 编程 的 书 ， 所 以 这 里 只 通过 以 下 几 个 方面 来 阐述 一 下 用 Python 作为 数据 科学 工具 的 理由 . 


(1) 简单 易 上 手 


Python 被 誉 为 可 执行 的 “ 伪 代 码 ”， 其 语法 风格 接近 人 类 的 语言 ， 即 使 是 第 一 次 看 代码 的 人 也 能 很 容易 理解 程序 所 要 实现 的 功能 ， 读 者 可 以 试 着 阅读 下 面 这 段 代码 回 : 


for i in range(0, 10): 
print (i) 


上 面 的 代码 中 range 代 表 一 段 区 间 ，0 代 表 下 界 ，10 代 表 上 界 ， 通 常 Python 程序 的 上 下 界 是 左 闭 右 开 的 一 个 区 间 。for 的 含义 表示 “这 其 中 的 每 一 个 数 ”，print 就 不 言 自明 了 ， 代 表 打印 结果 到 屏幕 上 。 


四 | 


0-1 所 


除了 优雅 的 语法 之 外 ，Python 还 属于 解释 性 语言 ， 我 们 可 以 不 经 过 编译 、 链 接 等 步骤 直接 获得 程序 执行 的 结果 。 而 且 Python 还 拥有 交互 式 解释 器 ， 可 以 让 我 们 随时 随地 测试 我 们 的 代码 ， 如 


示 。 


jilu:src:% python 

Python 2.7.9 (v2.7.9:648dcafa7e5f，Dec 10 2014，10:10:46) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help”, "copyright", "credits” or "license” for more information， 
>>> print(" 学 习 Python") 

学 习 Python 

>>% 1 和 十 和 十 米 9 

10 


rc 


True 


>>> 国 


图 0-1 初次 使 用 Python 
(2) 资源 丰富 、 应 用 广泛 


已 经 有 很 多 书 讲解 了 Python 相关 的 技巧 ， 比 如 《编程 导论 》 是 麻 省 理工 学 院 (MIT) 计算 机 科学 导论 的 课程 ，《Python 编 程 实战 》 是 一 本 Python 编 程 技巧 进 阶 的 好 书 ， 介 绍 了 在 Python 中 如 何 实践 设 
计 模式 ，《 机 器 学 习 实战 》 主 要 讲解 了 机 器 学 习 的 常见 算法 ， 其 中 使 用 Python 编写 了 全 部 的 代码 ; 《Python 高 手 之 路 》 对 如 何 使 用 Python 构建 大 型 系统 提出 了 很 多 有 益 的 见解 。 而 且 使 用 Python 的 知名 项 
目 也 很 多 ， 比 如 OpenStack 开 源 云 计 算 平 台 就 是 由 Python 编写 的 ， 还 有 世界 上 最 大 的 视频 网 站 YouTube 也 是 使 用 Python 开发 的 ， 等 等 。 当 然 Python 在 大 数据 应 用 上 也 有 其 独特 的 优势 ， 科 学 计算 库 
NumPy 和 SciPy、 绘 图 模块 Pylab、 统 计 库 Pandas、 机 器 学 习 库 Scikit-learn 都 是 为 Python 所 设计 的 ， 现 在 流行 的 Hadoop 和 Spark 也 都 提供 了 Python 接口 。 可 以 说 在 “大 数据 ”“ 数 据 科学” 领域， 如 果 某 
一 个 产品 不 支持 Python， 那 么 其 前 景 将 会 是 难以 想象 的 。 


(3) 跨 平台 、 免 费 


Python 官方 提供 了 多 平台 的 解释 器 ， 包 括 Windows、Mac OS X、Linux 甚 至 更 多 的 其 他 平台 ， 你 所 写 的 Python 代码 ， 可 以 在 不 经 修改 的 情况 下 移植 ， 比 如 在 Windows 上 开发 ， 在 Linux 服 务 器 上 运 
行 ， 不 会 有 任何 问题 。 而 且 Python 是 免费 且 开 源 的 ， 不 仅 标准 库 可 以 随意 阅读 其 源码 ， 连 官方 解释 器 的 C 语 言 实现 也 可 以 获得 其 源码 。Python 社 区 是 鼓励 分 享 的 ， 读 者 不 仅 可 以 从 中 学 到 很 多 编程 的 技巧 ， 
甚至 还 可 以 做 出 一 些 贡献 。 


[1] UTF-8 (8-bit Unicode Transformation Format) 是 一 种 针对 Unicode 的 可 变 长 度 字 元 编码 ， 可 以 编码 世界 上 大 部 分 语系 的 字符 ， 也 是 使 用 最 为 普遍 的 一 种 编码 方式 。 除 了 UTF-8 之 外 还 有 专门 的 中 文 编码 一 
GBK， 日 文 编码 一 Shift_JIS 有 在 使 用 。 
[2] Python 代 码 的 缩 进 应 该 总 是 4 个 空格 ， 这 是 保证 程序 正确 性 、 可 读 性 的 前 提 。 


下 面 是 一 段 用 Python 编写 的 有 趣 的 代码 ， 这 里 所 用 的 模块 并 不 会 在 本 书 中 进行 讲解 ， 仅 仅 是 向 购买 本 书 的 你 表示 我 的 感激 。 


代码 清单 如 下 : 


# ! /usr/bin/python 
# -*= coding; utf-8 -~#*-— 
import sys 


from colorama import init 

init (strip=not sys.stdout.isatty()) 
from termcolor import cprint 

from pyfiglet import figlet format 


cprint (figlet format('welcome', font='starwars'), 
'yellow', "on blue', attrs=['bold']) 


其 输出 的 结果 如 图 0-2 所 示 。 


MacBook-Pro:Downloads:% Python ~/GitHub/pyhit/test4.py 


NON 


MacBook-Pro:Downloads:% [| 


图 0-2 ”打印 艺术 学 的 Python 程序 


这 段 代码 非常 酷 ， 它 会 将 一 个 英文 单词 转换 成 字符 拼接 的 文字 ， 如 果 你 还 看 不 懂 该 程序 ， 也 没关系 ， 在 学 完 第 1 章 之 后 你 就 能 明白 这 段 代码 的 含义 了 ， 祝 你 阅读 愉快 。 


第 1 章 “Python 介 绍 


本 书 主要 介绍 数据 科学 所 使 用 的 工具 ， 但 因为 每 一 种 语言 都 有 自己 的 生态 系统 ， 而 笔者 多 用 Python， 所 以 本 书 主要 会 从 Python 的 角度 来 介绍 这 些 工具 。 阅 读本 书 的 读者 ， 不 管 之 前 的 基础 如 何 ， 如 果 
对 Python 这 门 编程 语言 有 一 定 的 了 解 ， 将 能 更 好 地 掌握 书 中 内 容 。 可 能 有 很 多 读者 曾经 在 学 校 里 学 过 C/C+ + 或 是 VB， 又 或 者 听 说 过 java、PHP 等 这 样 广泛 使 用 的 编程 语言 ， 初 闻 Python 的 时 候 可 能 会 对 这 
个 名 字 略 感 陌生 ， 不 过 这 一 点 并 不 能 阻碍 Python 成 为 数据 科学 领域 的 “一 等 公民 ”。 从 本 质 上 来 说 ， 编 程 语言 都 是 类 似 的 ， 即 通过 计算 的 方式 表达 人 类 大 脑 中 的 想法 ， 可 能 读者 现在 还 想象 不 出 来 在 电脑 上 
浏览 网 站 的 动作 是 如 何 转换 成 公式 ， 并 通过 电脑 进行 计算 的 。 这 个 看 似 简 单 的 动作 其 实 包 含 了 一 系列 从 低级 到 高 级 的 抽象 ， 也 就 是 我 们 常 说 的 算法 、 设 计 模式 等 内 容 。 现 在 的 编程 语言 有 上 干 种 之 多 ， 昌 然 
各 有 各 的 特色 ， 但 是 都 脱离 不 了 基本 的 算法 和 设计 模式 。 很 多 有 用 的 框架 都 在 多 种 编程 语言 上 实现 过 ， 他 们 的 功能 几乎 是 一 致 的 。 不 过 这 些 种 编程 语言 中 也 有 着 一 些 明显 的 区 别 ， 表 1-1 提 供 了 区 分 不 同 编程 
语言 的 一 些 维度 。 


表 1-1 中 灰色 部 分 就 是 Python 所 对 应 的 特性 。 总 的 来 说 ，Python 是 一 门 高 级 语言 ， 使 用 者 并 不 需要 关心 计算 机 底层 是 如 何 工 作 的 。 而 且 Python 的 使 用 不 仅 局 限于 数据 处 理 ， 它 还 可 用 于 Web 开 发 、 底 
入 式 开 发 等 领域 ， 是 一 门 被 广泛 使 用 的 高 级 语言 。 


表 1-1 区 分 编程 语言 的 一 些 维度 


通用 特定 领域 


由 于 Python 是 解释 运行 的 ， 因 此 并 不 需要 提前 编译 ， 省 去 了 大 量 的 麻烦 ， 并 且 可 以 在 大 多 数 常见 的 操作 系统 上 执行 。 


1.1 ”Python 的 版 本 之 争 


笔者 非常 希望 这 本 书 是 你 的 第 一 本 Python 书 ， 这 样本 书 就 不 用 去 解释 为 什么 Python 会 有 两 个 不 兼容 的 版 本 了 。 但 是 ， 这 个 问题 必须 解释 清楚 ! 因为 这 是 一 本 入 门类 图 书 ， 不 仅 应 该 讲授 当下 必须 了 解 
的 知识 ， 还 应 当 适 当地 回顾 历史 、 展 望 未 来 。Python 之 父 吉 多 . 范 罗 苏 姆 是 在 一 个 圣诞 节 的 假期 为 了 打发 无 聊 时 光 而 开发 的 Python 早期 版 本 ， 不 过 当时 由 于 电脑 性 能 太 差 ， 而 Python 的 设计 又 强调 通过 消耗 
电脑 的 时 间 来 节约 人 力 的 时 间 ， 导 致 python 程 序 运行 缓慢 ， 因 此 在 早期 并 没有 受到 太 多 关注 。2001 年 Python 才 发 布 了 2.0 版 本 ， 实 际 上 在 2.4 版 本 发 布 的 2004 年 之 后 Python 的 使 用 才 开始 快速 增长 。 
Python 2.5 版 本 在 以 前 是 一 个 非常 流行 的 版 本 ， 以 至 于 这 个 版 本 被 维护 了 很 多 年 ， 至 今 仍然 能 够 看 到 很 多 以 这 个 版 本 撰写 的 图 书 。 在 这 个 时 期 电脑 的 性 能 得 到 飞速 提升 ， 程 序 员 们 也 慢 慢 地 接受 了 这 种 花费 
计算 机 的 一 些 时 间 来 节约 自己 的 时 间 的 理念 。 在 Python 2.x 发 布 了 9 年 之 后 的 2009 年 ，Python 3.x 发 布 了 ， 为 了 解决 2.x 版 本 中 的 一 些 早 期 设计 缺陷 ， 以 及 包括 字符 串 编码 等 Python 老大 难 问题 。 不 过 这 似乎 
也 带 来 了 更 多 的 问题 ， 在 经 过 了 3 个 版 本 的 补救 之 后 ，3.4 版 对 Python3.x 进 行 了 大 刀 阔 从 的 修改 ， 以 至 于 在 3.x 的 版 本 中 3.4 之 前 和 之 后 的 版 本 也 并 不 兼容 。 好 在 当时 迁移 到 3.x 的 项 目 并 不 多 ， 不 过 这 也 确实 给 
人 以 Python 3.x 不 靠 谱 的 印象 ， 因 此 也 为 以 后 3.x 版 本 的 推广 增加 了 一 些 难度 。 当 然 坊间 流传 的 另外 一 个 原因 是 “Python 3.x 比 Python 2.x 慢 ” ， 我 不 得 不 承认 这 是 个 事实 ， 但 Python 本 来 也 不 是 以 快 为 目 
的 而 设计 的 ， 所 以 真 的 不 必 在 意 这 一 点 。 


目前 ， 常 用 的 Python 有 两 个 版 本 ，Python 2.x 和 Python 3.x (通常 指 3.4 以 后 的 版 本 ，3.0-3.3 版 本 官方 已 经 不 推荐 使 用 了 ) [1]， 两 个 版 本 在 很 多 方面 都 不 兼容 ， 甚 至 简单 的 “打印 ”输出 都 不 兼容 ， 所 
以 基本 上 没 办 法 无 痛 地 将 写 好 的 Python 程序 在 两 个 不 同 版 本 的 解释 器 上 运行 。Python 3.0 于 2009 年 年 初 发 布 ，Python 社 区 从 版 本 2 向 版 本 3 的 跨越 用 了 7 年 时 间 ， 但 仍然 说 不 上 成 功 ， 大 量 有 用 的 库 仍然 不 
支持 Python 3。 即 使 有 这 样 的 问题 ， 新 版 本 的 Python 仍 有 不 少 优点 ， 比 如 它 统一 了 Python 2 中 比较 混乱 的 部 分 ， 解 决 了 编码 问题 ， 增 加 了 新 式 类 ， 尤 其 在 Python 3.5 这 个 版 本 中 ， 还 增加 了 异步 关键 字 


async、await 等 ， 这 些 改变 使 得 Python 3 相 比 于 Python 2 有 着 很 大 的 优势 。 然 而 在 本 书写 作 之 时 ， 仍 然 有 一 些 重要 的 库 不 支持 Python 3， 所 以 笔者 推荐 使 用 Python 2.7 进 行 本 书 的 学 习 。 不 过 为 了 着 眼 未 
来 ， 本 书 会 尽量 使 用 Python 3 的 风格 来 书写 程序 ， 并 且 会 在 首次 出 现时 注 明 ， 希 望 能 够 帮助 那些 未 来 会 使 用 Python 3 的 读者 减少 一 些 迁移 的 痛苦 。 


种 在 本 书写 作 时 最 新 的 版 本 是 Python 2.7.11 和 Python 3.5.1。 


1.2 “Python 解释 器 


由 于 Python 是 一 门 开源 语言 ， 所 以 只 要 愿意 ， 任 何人 都 可 以 为 其 实现 一 个 解释 器 。 目 前 官方 解释 器 CPython 是 绝对 主流 ， 如 果 读 者 有 兴趣 ， 可 以 了 解 一 下 其 他 的 版 本 ， 比 如 支持 JIT (即时 编译 ) 的 
PyPy， 可 以 把 Python 编译 成 C 语 言 的 Cython， 拥 有 notebook 这 样 友 好 、 方 便 编程 界面 的 IPython 等 。 本 书 会 使 用 官方 解释 器 CPython 进 行 讲解 ， 并 且 还 会 使 用 到 一 些 第 三 方 的 库 ， 本 节 也 将 介绍 一 下 如 何 
在 主流 的 操作 系统 中 安装 必要 的 软件 。 


1.2.1 Mac OS X 系 统 


如 果 读者 使 用 的 是 苹果 电脑 (并且 使 用 的 是 其 自 带 的 系统 ) ， 那 么 无 须 特别 安装 Python， 因 为 它 已 经 被 预先 安装 在 电脑 中 了 。 为 了 验证 这 一 点 ， 读 者 可 以 打开 Mac OS X 的 “终端 ”应 用 ， 在 打开 的 终 
端 里 输入 “python”。 如 果 可 以 看 到 如 下 的 输出 则 证 明 电脑 中 已 经 正确 地 安装 了 Python : 


Macbook Pro:~:$ Python 

Python 2.7.9 (v2.7.9:648dcafa7e5f，Dec 10 2014, 10:10:46) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
>>> 


上 述 代 码 中 第 一 行 的 “$” 符 号 是 终端 的 命令 提示 符 ， 需 要 在 这 个 符号 之 后 输入 “python” 这 个 命令 以 打开 Python ， 如 果 一 切 正常 ， 则 终端 会 输出 一 些 关 于 Python 版 本 的 信息 ， 最 后 一 行 
以 “>>>” 结 属 。“>>>” 是 Python 交互 式 解释 器 的 命令 提示 符 ， 想 要 使 用 Python， 应 当 在 这 个 符号 后 面 键入 Python 命令 。 若 想 要 退出 Python 则 需要 在 “> > > ”之 后 输入 “exit0” ， 或 者 同时 按 下 键盘 
上 的 快捷 键 Ctrl+D。 


1.2.2” Linux 系统 


如 果 读 者 使 用 的 是 Linux 系 统 ， 那 么 与 Mac OS X 系 统一 样 ， 无 须 进行 安装 即 可 使 用 Python。 打 开 终 端的 方式 取决 于 你 使 用 的 Linux 发 行 版 本 中 ， 不 过 读者 可 以 尝试 按 Ctrl+Alt+T 的 组 合 键 来 启动 终端, 
或 者 在 应 用 菜单 中 寻找 “终端 ”或 名 为 “Terminal” 的 应 用 。 在 打开 了 终端 之 后 在 命令 提示 符 (通常 来 说 是 “$”) 后 , 键入 “python” 以 确认 Python 的 版 本 信息 ， 终 端 输出 的 内 容 应 当 与 Mac OS X 的 相 
同 ， 并 且 “>>>” 同 样 代 表 Python 命 令 提 示 符 ， 若 想 要 使 用 Python， 则 应 当 在 这 个 符号 后 面 输入 Python 命令 。 


四 如 果 读者 想 学 习 Linux， 并 且 不 知道 该 如 何 选择 Linux 发 行 版 ， 那 么 本 书 推荐 选择 Ubuntu。 


1.2.3 ”Windows 系 统 


由 于 Windows 系 统 默认 没有 提供 Python[1]， 因 此 需要 单独 安装 Python。 读 者 可 以 尝试 访问 https//www.python.org/downloads/windows/ 以 获取 最 新 的 Python 安装 包 。 在 写作 本 书 时 最 新 的 
Python 2.x 版 本 是 Python 2.7.11， 分 为 32 位 版 和 64 位 版 ， 下 载 地 址 分 别 如 下 。 


32 位 版 : https://www.python.org/ftp/python/2.7.11/python-2.7.11.msi 


64 位 版 : https://www.python.org/ftp/python/2.7.11/python-2.7.11.amd64.msi 


如 果 读 者 的 电脑 是 较 新 的 操作 系统 站， 并 且 拥 有 4GB 以 上 的 内 存 ， 那 么 通常 来 说 安装 64 位 的 软件 应 该 是 没有 问题 的 。 如 果 读 者 所 用 的 系统 较 老 ， 或 者 不 确定 自己 的 系统 是 多 少 位 的 ， 可 以 选择 32 位 的 版 
本 进行 安装 。 因 为 无 论 是 32 位 还 是 64 位 的 系统 ， 都 能 够 运行 32 位 版 本 的 软件 ， 反 过 来 32 位 的 系统 却 不 能 运行 64 位 的 软件 。 


下 载 完 成 之 后 双击 鼠标 进行 安装 ， 在 该 过 程 中 ， 就 像 安 装 普 通 的 应 用 程序 一 样 连续 单 击 “ 下 一 步 ”， 直 到 出 现 图 1-1 所 示 的 界面 为 止 。 


央 Python 2.7.11 (64-bit) Setup 


Customize Python 2.7.11 (64-bit) 


Select the way you want features to be installed. 
Click on the icons in the tree below to change the 
Way features will be installed. 


Register Extensions 
Tol/ Tk 
Documentation 
Utilty Scripts 

pip 

Test sukte 


|Add python.exe to Path 


| 至。 Will be installed on local hard dm 


prepend C:\f BS Entire feature will be installed on | 
variable. This 


command pr X Entire feature will be unavallable 


python 


for This feature requires OKB on your hard drive. 


Windows 


Disk Usage Advanced < Back [LNext> | Cancel 


1-1 Windows 版 Python 安 装 界面 


然后 在 Add python.exe to Path 的 安装 选项 中 选择 Will be installed on local hard driver。 接 下 来 通过 同时 按 下 Win+R 键 打开 运行 ， 在 弹出 的 运行 对 话 框 中 键入 cmd， 如 图 1-2 所 示 。 


加 运行 


局。 Windows 将 根据 你 所 输入 的 名 称 ， 为 你 打开 相应 的 程序 
{3/ 文件 夹 、 文 档 或 Internet 资源 。 


打开 (O): |cmd ~ 


取消 | 浏览 (B).. 


图 1-2 Windows“ 运 行 ” 程 序 界面 
操作 完成 后 ， 就 打开 了 Windows 的 命令 行 界 面 ， 如 图 1-3 所 示 。 


区 CN\Windows\system32Ncmd.exe 


18.9.18248] 
(ce> 2015 Microsoft Corporation. fll rights reserved. 


:Nisers\jilu> 


图 1-3 Windows 命 令 行 (cmd) 窗口 


此 时 在 命令 提示 符 “>” 后 输入 “python” 会 出 现 两 种 情况 : 情况 一 ,会 出 现 与 Mac OS X 系 统一 样 的 Python 版 本 信息 ， 并 且 以 “> >>” 结 尾 。 情 况 二 ,会 出 现 ‘python” 不 是 内 部 或 外 部 命令 ， 
也 不 是 可 运行 的 程序 或 批 处 理 文件 。” 的 错误 信息 。 如 果 是 这 样 ， 就 需要 先 运行 下 面 的 命令 内 以 修正 这 个 错误 : 


set PATH=%PATH%S;C:/Python27 
之 后 再 运行 Python， 就 可 以 得 到 正常 的 输出 了 ， 如 图 1-4 所 示 。 


末 C:\Windows\system32\cmd.exe - python 


Microsoft Windows [hR 本 19-9.10924961 
《c》 2015 Microsoft Corporation. fll rights reserved. 


CGC:\NJsers\iilu>set PhRTH=xPhRTHX3C: Puthon27 


cc:UsersNiilu>pvython 
2.7.11 v2.7.11:6dihb6a68f7?75,. Dec 5 2915。20:409:3987 [MSC uv.1509 64 bit 《hMD64>] on win32 


"copyright", "credits" or "license' for nmore information 。 


图 1-4 在 Windows 上 正确 运行 Python 的 界面 
至 此 ， 读 者 应 该 已 经 能 够 在 自己 的 电脑 上 使 用 Python 进行 编程 了 。 在 Windows 下 ， 想 要 退出 Python 只 能 使 用 输入 exit( 的 这 一 种 方式 ，Windows 的 cmd 不 接受 Ctrl+D 的 命令 。 


目 不 仅 是 Python， 即 使 Java、C/C++ 这 些 语言 的 编程 环境 Windows 都 默认 没有 提供 。 
网 | 包括 Windows 7、Windows 8 夭 dows 10。 
[3] Win 键 就 是 空格 键 的 左边 或 右边 带 有 微软 徽标 的 按键 。 


团 只 有 在 安装 时 需要 运行 一 次 ， 以 后 无 须 再 次 运行 。 


1 


.3 ”第 一 段 Python 程 序 


Python 程序 有 时 也 称 为 Python 脚本 ， 是 定义 和 命令 的 序列 。Python 提 供 了 非常 方便 的 交互 式 解释 器 ， 也 就 是 1.2 节 中 提 到 的 在 终端 输入 “python” 时 启动 的 程序 。 很 明显 ， 无 论 是 终端 还 是 Python 交 


互 式 解释 器 ， 都 需要 用 户 在 命令 提示 符 后 面 输入 命令 才能 工作 ， 通 常 我 们 称 其 为 shell、Linux shell、Mac OS X shel| 或 是 Python shell。shell 对 应 的 中 文 有 有“ 壳 ”的 意思 ， 表 示 这 是 计算 机 核心 计算 单元 的 


屋外 壳 ， 用 户 可 通过 这 层 壳 向 计算 机 发 送 命令 。 现 在 请 读者 打开 Python shell， 让 我 们 尝试 一 些 例子 : 


Macbook Pro:~:$ Python 
Python 2.7.9 (v2.7.9:648dcafa7e5f，Dec 10 2014，10:10:46) 
[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 


Type "help", "copyright", "credits" or "license" for more information. 
>>>print ("Hello Data") 
Hello Data 


>>>print ("Hello %s" % "World") 
Hello World 

>>> "Hello Data" 

'Hello Data'" 

>>>1 + 2 

3 

>>> 


这 里 分 别 执行 了 4 条 命令 ， 在 命令 提示 符 “> > >” 之 后 ， 我 们 手动 输入 了 print("Hello Data")、print("Hello%s"%"World")、"Hello Data"、1+2。 每 输入 一 条 命令 按 一 次 回 车 键 ，Python shell 就 会 在 


接 下 来 的 一 行 顶 格 打印 出 执行 完 该 命令 所 得 到 的 结果 ， 并 换行 输出 另外 一 个 命令 提示 符 ， 以 等 待 下 一 条 命令 。 注 意 ， 这 里 在 第 一 条 和 第 二 条 语句 中 分 别 给 print 函 数 上 传 了 一 个 值 ， 如 果 是 一 句 话 加， 那么 
print 函 数 会 将 其 打印 到 屏幕 上 。 接 下 来 的 命令 中 则 省 略 了 print 函 数 ， 直 接 输入 "Hello Data"， 其 结果 与 前 两 条 语句 的 结果 稍稍 有 些 不 同 (多 了 左右 的 单 引号 ) 。 这 是 Python shell 特 有 的 功能 ， 无 需 特殊 的 
命令 就 能 输出 Python 语句 的 结果 ( 单 引号 仅 表 示 结 果 是 字符 串 类 型 的 ， 并 没有 其 他 的 含义 ) 。 


一 条 语句 中 进行 了 一 个 简单 的 数学 计算 ， 读 者 还 可 以 尝试 其 他 的 运算 。 需 要 特别 注意 的 是 ， 当 进行 除法 计算 时 ， 比 如 下 面 这 个 命令 : 


>>>10/3 
3 


所 得 到 的 结果 是 整除 法 的 结果 (省 略 了 小 数 部 分 ) ， 如 果 想 要 得 到 正常 的 结果 ， 请 用 小 数 表示 这 个 计算 ， 比 如 : 


>>>10/3.0 
3.3333333333333335 


吊 


加 这 


1 


这 个 问题 在 Python 3 中 已 经 得 到 了 解决 ， 并 且 在 Python 2 中 也 有 很 好 的 解决 方案 ， 关 于 这 点 第 2 章 中 会 进行 详细 的 介绍 。 


在 Python 2 中 print 通 常 是 以 命令 的 方式 出 现 的 ， 比 如 print"Hello Data"， 但 这 里 使 用 的 是 Python 3 打印 函数 的 形式 ， 后 续 的 章节 中 会 讲解 打印 函数 相 较 于 打印 命令 的 优点 。 
里 暂时 还 不 能 在 shell 中 输入 中 文字 符 ， 关 于 如 何 处 理 中 文 会 在 第 2 章 中 详细 介绍 。 


.4 使 用 Python shell 调 试 程序 


Python shell 不 仅 为 Python 初学 者 提供 了 一 个 方便 的 入 门 工 具 ， 更 是 提高 了 专业 程序 员 和 数据 科学 家 们 的 生产 力 。 比 如 在 编写 程序 时 忘记 了 某 个 表达 式 的 写法 ， 可 以 打开 Python shell， 在 里 面 调试 好 


了 之 后 再 写 入 程序 。 或 者 直接 在 Python shell 中 探索 原始 数据 文件 中 的 数据 ， 变 换 数据 的 结构 ， 执 行 计数 、 去 重 、 分 组 等 操作 。 并 且 可 以 随时 查看 前 辈 们 留 给 我 们 的 建议 ， 比 如 在 Python shell 中 输入 
import this， 将 导入 Python 中 一 个 名 为 this 的 模块 : 


>>> import this 
The Zen of Python, by Tim Peters 


Beautiful is better than ugly. 

Explicit is better than implicit. 

Simple is better than complex. 

Complex is better than complicated. 

Flat is better than nested. 

Sparse is better than dense. 

Readability counts. 

Special cases aren't special enough to break the rules. 

Although practicality beats purity. 

Errors should never pass silently. 

Unless explicitly silenced. 

In the face of ambiguity, refuse the temptation to guess. 

There should be one-- and preferably only one --obvious way to do it. 
Although that way may not be obvious at first unless you're Dutch. 
Now is better than never. 

Although never is often better than *right* now. 

If the implementation is hard to explain, it's a bad idea. 

If the implementation is easy to explain, it may be a good idea. 
Namespaces are one honking great idea -- let's do more of those! 
>>> 


大 意 是 : 


Python 之 道 


美丽 优 于 丑陋 
明确 优 于 聊 涩 


这 和 人 
和 et i _ 
且 显 而 易 见 的 解决 方案 
可 色 A 于 那么 显而易见 ， 因 为 你 不 是 Python 之 父 
a 但 是 随意 做 还 不 如 不 做 
很 难 向 别人 解释 的 方案 是 不 好 的 
很 要 另外 公关 相 虹 的 池 案 但 计 由 好 的 
命名 空间 是 一 个 令 人 拍手 称赞 的 好 点 子 ， 让 我 们 善 加 利用 


通过 上 面 的 例子 ， 我 们 已 经 知道 了 Python 中 模块 的 概念 ， 模 块 是 Python 中 最 大 的 代码 单位 ， 以 后 我 们 还 会 学 到 文件 、 函 数 、 语 法 块 等 不 同 级 别 的 Python 代码 单位 。 在 一 个 Python 的 模块 中 可 能 会 包含 


一 个 到 多 个 不 同 的 功能 ，Python 中 随 解释 器 一 起 分 发 的 标准 模块 有 300 多 个 ， 可 以 应 付 绝 大 多 数 的 编程 任务 ， 也 确实 有 些 程序 员 坚 持 只 使 用 标准 库 提 供 的 模块 。 不 过 本 书 提倡 的 是 另外 一 种 编程 的 哲学 ， 


即 


“不 要 重复 造 轮子 ”， 只 要 某 一 个 功能 已 经 被 别人 实现 为 模块 了 ， 那 么 最 好 拿 来 就 用 ， 而 不 是 自己 重新 编写 。 所 以 我 们 会 安装 很 多 第 三 方 模块 ， 这 些 模块 也 是 非常 优秀 的 ， 只 是 还 没有 被 收录 进 官方 的 标 


准 模块 中 [1]， 也 是 基于 此 ， 下 面 将 使 用 pip 来 安装 第 三 方 模块 。 不 过 ， 根 据 操作 系统 的 不 同 ， 安 装 方式 也 略 有 区 别 ， 如 果 读者 使 用 Mac 或 Linux 系 统 ， 那 么 按照 


之 前 的 教程 并 没有 经 历 安装 Python 解释 器 的 步 


又 ， 因 此 这 里 需要 读者 确认 一 下 自己 的 Python 版 本 。 可 以 在 终端 输入 python， 比 如 : 
$ Python 
Python 2.7.11 (default, Jan 28 2016, 13:11:18) 
GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> 


在 输出 的 第 一 行 Python 代码 之 后 ， 由 点 号 分 隔 的 部 分 就 是 Python 的 版 本 ， 例 如 上 述 代 码 中 显示 的 版 本 是 2.7.11。 如 果 你 的 Python 版 本 为 2.7.9 或 高 于 该 版 本 ， 那 么 你 无 须 任何 操作 就 已 经 拥有 了 pip 程 


序 ， 可 以 在 终端 中 输入 pip 尝 试 一 下 ,会 有 类 似 下 面 的 输出 : 


$pip 


Usage: 
pip <command> [options] 


Commands: 


install Install packages. 

download Download packages. 

uninstall Uninstall packages. 

freeze Output installed packages in requirements format. 
list List installed packages. 

show Show information about installed packages. 
search Search PyPI for packages. 

wheel Build wheels from your requirements. 

hash Compute hashes of package archives. 
completion A helper command used for command completion 
help Show help for commands. 


如 果 很 不 幸 你 的 Python 版 本 号 低 于 2.7.9， 那 么 需要 手动 安装 pip， 可 以 在 网 址 https://bootstrap.pypa.io/get-pip.py 中 下 载 安装 脚本 。 


将 脚本 下 载 到 某 一 个 目录 中 ， 然 后 使 用 下 面 的 命令 进行 安装 : 


$sudo Python get-pip.py 


由 于 Mac 系 统 和 Linux 系 统 权限 的 要 求 ， 这 一 步 需要 你 输入 电脑 的 开机 密码 。 


对 于 Windows 系 统 来 说 ， 如 果 是 参考 本 书 的 安装 方式 进行 安装 的 ， 那 么 你 已 经 获得 了 最 新 版 本 的 Python， 也 就 表示 你 已 经 拥有 了 pip， 可 以 直接 使 用 。 


使 用 pip 安 装 Python 的 第 三 方 模块 非常 简单 ， 比 如 我 们 要 安装 requests 这 个 第 三 方 模块 ， 可 以 使 用 下 面 的 命令 : 


$pip install requests 


一 般 来 讲 ，Windows 的 用 户 直 接 运 行 这 个 命令 就 可 以 安装 了 ， 而 Mac 或 Linux 用 户 由 于 系统 权限 的 原因 需要 在 命令 的 最 前 方 增加 sudo 这 个 命令 ,代码 如 下 


$sudo pip install requests 


以 后 的 章节 中 将 不 再 强调 这 一 区 别 ， 请 读者 根据 自己 的 系统 使 用 相对 应 的 命令 。 另 外 有 一 部 分 因为 历史 原因 ， 第 三 方 库 是 使 用 C 语 言 编写 的 ， 因 此 很 可 能 还 需要 你 的 电脑 上 装 有 C/C++ 编译 器 。 对 于 


Mac 和 Linux 来 说 ， 就 是 GCC 编 译 器 ， 对 于 Windows 来 说 则 是 Visual Studio。 


在 上 述 过 程 的 实践 中 ， 大 家 可 能 会 遇 到 各 种 各 样 的 问题 ， 本 书 无 法 穷尽 所 有 可 能 会 遇 到 的 问题 ， 所 以 当 遇 到 具体 的 问题 时 应 当 尽 量 求助 于 搜索 引擎 。 关 于 使 用 搜索 引擎 ， 笔 者 自己 有 一 条 最 基本 的 原 


则 : 我 不 可 能 是 第 一 个 遇 到 该 问题 的 人 ! 只 要 遵守 这 个 原则 ， 绝 大 多 数 情况 下 都 能 找到 令 人 满意 的 答案 。 


[由 事实 上 很 多 官方 的 标准 模块 都 曾经 是 第 三 方 模块 。 


第 2 章 ” Python 基础 知识 


为 了 开启 我 们 的 数据 科学 之 旅 ， 本 章 会 进行 一 些 基础 的 编程 训练 。 第 1 章 中 已 经 搭建 好 了 Python 的 运行 环境 ， 读 者 应 该 已 经 能 够 在 Python shell 中 执行 简 重 


a 的 打印 和 四 则 运算 了 。 接 下 来 我 们 要 完整 地 


学 习 一 遍 构 成 一 个 Python 程序 的 基本 要 素 。 


2.1 应当 掌握 的 基础 知识 


本 节 会 介绍 一 些 学 习 Python 前 应 当 掌握 的 基础 知识 ， 这 一 部 分 内 容 在 所 有 的 编程 语言 学 习 中 基本 上 都 是 类 似 的 ，Python 当 然 也 遵守 这 些 通用 的 规则 ， 熟 悉 这 些 内 容 的 读者 可 以 跳 过 这 一 节 。 


2.1.1 ”基础 数据 类 型 


首先 ， 需 要 明确 的 是 ， 在 Python 中 ， 所 有 的 元 素 都 是 “对 象 ”。 “对象” 是 计算 机 科学 中 的 一 个 术语 ， 本 书 以 后 的 章节 会 对 其 进行 介绍 ， 现 在 读者 只 需要 将 对 象 等 同 于 “东西 ”就 好 了 。 既 然 是 一 种 东 
西 ， 那 么 就 要 对 其 进行 分 类 ， 所 有 对 象 都 要 归属 于 某 个 “类 型 ”， 比 如 猫 属于 动物 ， 电 视 属于 电器 ， 床 属于 家 具 等 。 从 这 个 比喻 来 看 ， 对 象 是 一 个 具体 的 事物 ， 而 类 型 则 是 一 个 抽象 的 分 类 ， 并 且 同 一 类 型 
的 东西 总 是 有 很 多 相似 之 处 ， 比 如 动物 需要 吃 东 西 ， 可 以 自由 移动 ， 或 者 趴 在 你 的 键盘 上 妨碍 你 打字 (开玩笑 的 ) 。 虽 然 本 章 并 不 打算 介绍 “面向 对 象 ”， 但 还 是 想 强调 一 下 “对 象 ”是 Python 程序 处 理 的 


核心 事物 ， 而 且 每 个 对 象 都 有 它 所 归 


属 的 类 型 ， 最 终 会 由 类 型 决定 Python 程序 可 以 对 这 个 对 象 做 什么 。 


Python 有 如 下 5 种 基本 的 数据 类 型 。 


“ None: 这 个 类 型 表示 什么 都 没 


有 ， 这 是 一 个 特殊 的 类 型 ， 并 且 也 仅 有 None 这 一 个 对 象 。 


int: 表示 整数 的 类 型 ， 比 如 1、2、3、4 这 样 的 数字 就 是 int 型 ， 当 然 ， 负 数 -1、-2、-3、-4 等 也 都 在 int 的 范围 之 内 ， 范 围 等 同 于 数学 定义 中 的 整数 。 


“ float: 代表 浮 点 数 ， 比 如 1.2，4.5 或 -72.1， 当 所 要 表达 的 数字 过 大 或 过 小 时 可 能 会 用 科学 计数 法 来 表示 ， 比 如 1.6E11 代 表 1.6X1011 这 样 的 大 数 。 而 且 1.0 或 -2.0 这 样 的 数 也 叫 作 浮 点 数 ， 虽 然 它们 的 


与 去 掉 小 数 点 及 后 面 的 0 之 后 的 值 看 起 来 是 相等 的 ， 但 是 它们 是 不 同 的 类 型 ，Python 程 序 可 以 对 它们 做 的 事情 也 不 一 样 山 。 比 如 下 面 这 一 小 段 程序 丫 : 


本 LU 
站 证 3 2. 
[GCC A es Apple Inc. build 5666) (dot 3)] on darwin 
Type "hell "copyright", "credits" or "license" for more information. 
>>> 2 一 
True 
>2>> 2 is 2.0 
False 

>>> type (2) 
<type 'int'> 
>>> type (2.0) 
<type 'float'> 
>>> 


务 pyth 
了 > 和 (v2. 7.9:648dcafa7e5f，Dec 10 2014, 10:10:46) 
1 
p", 
2.0 


“ bool: 表示 布尔 类 型 的 值 ， 可 能 有 的 读者 听 说 过 布尔 值 只 有 两 个 ， 非 0 即 1 ， 在 Python 中 使 用 False 代 表 0，True 代 表 1， 上 面 的 一 小 段 代 码 试图 判断 2 与 2.0 之 间 值 的 大 小 时 ，Python 程 序 的 结果 是 True， 而 


在 判断 2 是 不 是 2.0 时 返回 的 却 是 False。 


“str; 代表 字符 串 类 型 ， 比 如 “Hello World” 就 是 一 个 stt 类 型 。 严 格 来 说 ， 在 Python 2 中 还 有 一 个 unicode 类 型 几乎 与 str 类 型 没有 任何 区 别 趾 。 并 且 str 类 型 也 不 是 原子 川 类 型 ， 而 是 由 多 个 字符 组 成 的 序列 
类 型 。 实 际 上 stt 类 型 并 不 是 基础 数据 类 型 ， 可 实际 上 几乎 没有 程序 能 够 完全 不 使 用 字符 串 类 型 的 对 象 ( 即 使 是 第 1 章 中 的 示例 程序 ， 也 用 到 了 字符 串 类 型 的 对 象 ， 那 个 时 候 读 者 也 许 还 不 知道 什么 是 对 象 ， 就 


已 经 知道 “Hello World” 是 字符 串 了 ) ， 所 以 这 里 将 str 划 为 基础 数据 类 型 。 
现在 ， 我 们 已 经 介绍 了 Python 的 5 个 基本 类 型 ， 接 下 来 就 让 我 们 对 它们 做 一 些 事情 。 


四 比如 在 Python 2.x 中 1/2 与 1/2.0 的 结果 是 不 同 的 ， 当 然 这 里 的 区 别 非 常 微妙 ， 初 学 者 也 不 用 太 过 在 意 。 


[四 在 Python 中 “二 二 ”表示 对 左右 两 边 的 值 进行 “ 值 相等 比较 ”， 而 “is” 则 代表 对 类 型 和 值 同 时 进行 比较 ， 另外， 与 不 等 于 比较 相对 应 的 版 本 是 “! 二 ”和 “is not” 


的 类 型 。 
[ 引 在 Python 3 中 unicode 已 经 被 取消 了 ， 所 有 的 字符 串 都 是 str 类 型 。 
所谓 “原子 ”类 型 ， 就 是 不 能 够 再 进行 切 分 的 最 小 类 型 单位 ， 之 前 介绍 的 4 个 类 型 都 属于 原子 类 型 。 


2.1.2 ”变量 和 赋值 


在 Python 中 我 们 可 以 随意 为 对 象 起 一 个 名 字 ， 甚 至 起 好 几 个 名 字 ， 比 如 下 面 的 语句 : 


>>> USD to_CNY = 6.4855 
>>> dolTar rate = USD to_CNY 
>>> dollar rate = USD to CNY = 6.4855 


，type 可 以 告诉 我 们 传 入 的 对 象 所 归属 


第 一 条 语句 用 于 将 字面 量 为 6.4855 的 浮 点 型 对 象 赋值 给 USD to CNY 变 量 ; 第 二 条 语句 是 通过 变量 USD to_CNY 将 6.4855 传 递 给 了 另外 一 个 变量 dollar_rate; 第 三 条 语句 则 是 前 两 条 的 合体 。 这 里 需要 
强调 的 是 ， 在 Python 里 所 有 的 赋值 操作 都 是 起 一 个 别名 ， 对 象 还 是 最 原始 的 对 象 ， 这 种 方式 叫 作 引用 传递 。Python 中 有 一 个 id( 方 法 ， 可 以 将 某 个 对 象 在 Python 内 部 的 唯一 编号 打印 出 来 ， 为 了 证 明 这 一 


点 ， 一 起 来 看 一 下 下 面 的 代码 及 输出 : 


>>> id(6.4855) 

4302308792 

>>> dollar rate = USD to CNY = 6.4855 
>>> id(dollar :1 rate) 

4302308792 

>>> id(USD to _CNY) 

4302308792 

>>> id(6.4855) 


可 以 看 到 无 论 是 原始 的 变量 还 是 它 的 两 个 别名 ， 它 们 的 对 象 ID 都 是 相同 的 []。 如 果 我 们 为 一 个 变量 重新 赋值 ， 那 么 与 这 个 变量 对 应 的 对 象 |D 就 会 改变 ， 比 如 : 


>>> dollar rate = 5.5 
>>> id(dollar rate) 
4302308816 


虽然 ， 变 量 仅 仅 是 一 个 名 字 ， 但 是 想起 一 个 好 的 名 字 并 不 容易 。 真 正 的 程序 员 在 工作 中 无 时 无 刻 不 面 临 着 如 何 给 某 个 对 象 找 一 个 简单 直 白 的 名 字 ， 如 果 起 了 一 个 有 误导 性 质 的 名 字 ， 结 果 很 可 能 是 灾难 


性 的 。 比 如 ， 一 个 粗心 的 程序 员 将 美元 汇率 (USD) 写成 了 欧元 汇率 (EUR) ， 那 么 这 家 公司 可 能 会 因为 给 顾客 兑换 更 多 的 人 民 币 而 破产 。Python 的 书写 规范 (EPE8) 中 ,详细 地 规定 了 该 如 何 书写 名 


称 ， 本 书 仅 做 一 些 必要 的 约定 : 名 称 应 该 是 能 表达 实际 含义 的 名 词 ， 由 字母 、 数 字 及 下 划 线 组 成 ， 但 不 能 以 数字 开头 。 还 要 注意 的 是 ， 不 要 使 用 Python 的 保留 字 ， 
础 ， 它 们 有 一 些 特定 的 含义 ， 以 下 是 Python 2.7 中 的 保留 字 自 : 


为 这 些 单词 是 程序 得 以 顺利 执行 的 基 


and del from not while 
as elif global or with 
assert else 汪 人 pass yield 
break except import print 

class exec in raise 

continue finally is return 

gef for lambda ty 


关于 赋值 ， 最 后 还 有 一 点 需要 说 明 ， 即 Python 支持 多 重 赋值 ， 如 果 读 者 有 过 C/C+ + 编程 的 经 验 ， 可 能 对 下 面 的 语句 不 会 陌生 : 


NMNK 
[机 本 本 本 | 
NI XI 


在 比较 有 历史 的 编程 语言 交换 两 个 变量 的 值 只 能 通过 一 个 中 间 变 量 来 实现 ， 而 在 Python 中 可 以 方便 地 写成 : 


2 
>>> Y 
>>> x, y= y, x 


ID 


在 Python 中 这 种 赋值 方式 称 为 列 解 包 ， 后 这 将 会 在 讲解 序列 类 型 时 再 次 提 及 序列 解 包 。 


四 如 果 读 者 在 自己 的 计算 机 上 和 运行 上 面 的 命令 ， 得 到 的 对 象 ID 跟 本 书 输出 的 结果 可 能 会 有 所 不 同 ， 这 不 要 紧 ， 这 里 最 重要 的 是 三 行 命令 最 终 会 得 到 相同 的 对 象 ID。 
四 在 Python 3 中 增加 了 await 和 async， 取 消 了 print， 不 过 习惯 上 还 是 不 要 将 print 用 作 变 量 名 。 


2.1.3 ”操作 符 及 表达 式 


Python 中 有 一 系列 的 操作 符 ， 操 作 符 可 用 来 连接 两 个 [对象 的 符号 ， 比 如 “+ ”号 操作 符 连 接 两 个 数字 就 可 以 组 成 一 个 表达 式 ， 而 且 表 达 式 的 值 也 是 对 象 ， 下 面 列 出 了 Python 的 全 部 操作 符 : 


算术 操作 符 : +、-、*、**、/、 //、% 
位 操作 符 : <<、>>、&、|、^、~ 
比较 操作 符 : <、>、<=、>=、==、!= 
逻辑 操作 符 : and、or、not 


“ 算术 操作 符 : 用 来 进行 算术 操作 。 值 得 注意 的 是 ，Python 中 的 算术 操作 符 是 自动 重 载 的 ， 对 于 int 类 型 的 两 个 对 象 ，“+” 代 表 求 和 。 而 对 于 str 类 型 的 两 个 对 象 ，“+” 就 会 变 成 连接 两 个 字符 串 ， 比 
如 : 


>>> "abc" + "dfe"™ 
abcdef 


对 于 该 符号 ， 本 章 后 面 讲解 字符 串 时 会 做 进一步 讲解 。 


“ 位 操作 符 : Python 的 位 操作 符 是 进行 位 运算 的 ， 比 如 将 一 个 整数 右 移 的 计算 “1234>>1”， 因 为 本 书 并 不 会 涉及 位 运算 ， 感 兴趣 的 读者 可 以 自己 找 一 些 资料 来 学 习 。 


“ 比较 操作 符 : 这 个 操作 符 就 很 好 理解 了 ， 不 过 值得 注意 的 是 ， 比 较 操 作 符 也 是 经 过 重 载 的 ， 在 比较 字符 串 的 类 型 时 ， 是 按照 字母 的 字典 顺序 进行 比较 的 ， 比 如 “a”< “b”。 含 有 比较 操作 符 的 表达 
式 ， 其 表达 式 的 值 是 布尔 型 ， 比 较 条 件 成 立时 为 True， 不 成 立时 为 False。 


: 逻辑 操作 符 : and 表 示 操 作 符 两 侧 的 值 (表达 式 的 值 或 对 象 的 值 ) 全 部 等 同 于 True 时 癌 ， 结 果 就 是 True。or 只 需要 操作 符 两 侧 的 值 有 一 个 为 True 就 为 True。not 就 如 字面 意思 一 样 ， 会 弟 转 Ture 和 False 的 
值 ， 比 如 not True 的 结果 是 False， 反 之 亦 然 。 


最 后 ， 需 要 注意 的 是 ， 编 程 与 数学 计算 一 样 ， 操 作 符 是 有 优先 级 的 ， 比 如 * 号 就 要 优先 于 + 运算 ， 实 际 的 处 理 办 法 也 与 数学 中 的 相同 ， 可 以 使 用 圆 括 号 () 来 将 想 要 优先 运算 的 部 分 括 起 来 。 比 如 (1+ 
2) “3 就 会 先 计算 加 法 再 计算 乘法 。 


四 Python 没有 三 元 操作 符 〈?:) ， 所 以 在 Python 中 ， 操 作 符 就 是 用 来 连接 两 个 对 象 的 。 
四 这 里 我 用 了 一 个 绕 口 的 说 法 ， 因 为 在 Python 中 对 象 的 值 及 表达 式 的 值 的 真 假 稍微 有 一 些 模糊 ， 除 了 布尔 型 的 Ture 和 False 之 外 ，int 型 中 除了 0 其 余 的 值 都 相当 于 True，0 相 当 于 False。 而 字符 串 型 中 除 
了 “” 空 字符 囊 等 同 于 False 之 外 其 余 的 值 均 为 True。 不 过 总 的 来 说 ， 对 于 每 一 种 Python 对 象 ， 一 般 是 没有 意义 的 空 值 等 同 于 False， 其 余 的 等 同 于 True。 


2.1.4 ”文本 编辑 器 


使 用 Python 的 交互 式 命令 行 是 非常 便捷 的 编程 方式 ， 但 是 当 需 要 编写 的 程序 比较 多 时 ， 程 序 员 应 使 用 更 好 的 工具 来 管理 代码 。 为 简便 起 见 ， 本 章 暂 时 还 不 会 介绍 IDE (Integrated Development 
Environment， 集 成 开发 环境 ) ， 刚 入 门 编程 的 读者 最 好 还 是 从 普通 的 纯 文本 编辑 器 开始 入 手 。 


可 能 有 不 少 读者 常用 的 编辑 文本 的 软件 是 Office World、Windows 记 事 本 ， 或 者 Mac 上 的 pages、 备 忘 录 ， 又 或 者 是 跨 平台 的 印象 笔记 等 。 这 些 软件 可 以 叫 作文 本 编辑 器 ， 但 是 却 不 能 叫 作 纯 文 本 编辑 
器 。 因 为 这 些 软件 为 了 方便 排版 ， 除 了 实际 显示 的 文本 之 外 ， 还 有 很 多 特殊 的 隐藏 字符 用 来 表示 格式 。 任 何 代码 文件 都 应 当 以 纯 文本 的 方式 来 保存 ， 所 以 这 里 推荐 两 款 适用 于 编程 的 纯 文 本 编辑 器 一 
Sublime Text 3 和 Notepad++。 


1.Sublime Text 3 


Sublime Text 3 是 首选 ， 这 是 一 款 免费 的 、 跨 平台 的 纯 文本 编辑 软件 1， 在 Mac OS X、Windows、Linux 里 都 有 对 应 的 版 本 ， 图 2-1 是 Sublime Text 3 运行 时 的 截图 。 


Example.F 


example.py 
x=1 
y=2 


X, yY = y, x 
print(x) 


print(y)| 


图 2-1 Sublime Text 3 界面 


从 图 2-1 中 可 以 看 到 ，Python 代 码 的 不 同 部 分 被 标注 成 了 不 同 的 颜色 ， 这 是 因为 我 将 文件 保存 成 example.py 的 文件 了 。“.py” 是 Python 程序 的 扩展 名 ， 正 确 的 Python 程序 必须 以 .py 结尾 ， 这 样 编辑 
器 和 Python 解释 器 才能 够 正确 识别 。 


2.Notepad++ 


Notepad+ + 是 一 款 专门 为 Windows 设 计 的 纯 文 本 编辑 器 ， 同 样 也 是 免费 的 ， 而 且 有 一 批 忠实 的 用 户 在 使 用 ， 有 兴趣 的 读者 可 以 去 了 解 一 下 ， 图 2-2 是 Notepad+ + 的 软件 界面 。 


以 上 两 个 软件 的 功能 很 相似 ， 都 能 够 满足 我 们 目前 的 需求 ， 安 装 方式 也 与 其 他 应 用 程序 的 安装 方式 一 致 ， 这 里 就 不 再 袭 述 了 。 再 提醒 一 次 ， 使 用 Windows 的 用 户 一 定 不 要 使 用 Windows 记 事 本 打开 
Python 程序 文件 ， 因 为 记事 本 会 向 纯 文 本 文件 每 一 行 的 未 尾 插入 一 个 Windows 特 有 的 标记 ， 平 时 看 不 见 ， 但 它 会 导致 程序 运行 失败 。 


在 安装 编辑 器 之 后 ， 输 入 适当 的 Python 代码 ， 保 存 为 以 “.py” 结 尾 的 Python 程序 文件 之 后 ， 就 可 以 通过 在 命令 行 中 输入 “python+ 程 序 文件 路 径 ”的 方式 运行 了 ， 在 Mac OS X 中 的 截图 如 图 2-3 所 


病 \psNHome\Desktop\example.py - Notepad++ [Administrator] 


文件 (日 ”编辑 (E) 搜索 (S) 视图 (V】 格式 (M) 语言 (|】 设置 (T) 去 (O) 运行 (R) 揪 件 (P) 窗口 W) ? 
3 是 疡 局 哟 妆 | 上 省略 全 | Be@| 掀 锡 | 信 全 | 驻 己 | 坏 | 于 辐 国 崩 | 加 


加 xanple. pyEI 
了 X= 1 
Y= 2 
i 
print(x) 
print (vy) 


python file length:45 lines:5 Ln:5 Col:9 Sel:0|0 Dos\Windows UTF-8 
图 2-2 ”Notepad+ 二 界面 
. 时 个 jilu — jilu@ijilu 一 -zsh 一 Solarized Dark ansi 一 101x27 


python ~ 十 
:~:% python ~/Downloads/example.py 


图 2-3 ”Mac OS 又 终端 运行 界面 


在 Windows 中 的 截图 如 图 2-4 所 示 。 


上 困 选 定 C\Windows\system32\cmd.exe 


Microsoft Windows [hi 不 109.9.102491] 
cy 2015 Microsoft Corporation. fll rights reserved. 


csersNilu>set PATH=xPATHx%;C:/Python27 


:sersMilu>python CGC: Nsers\ilu\Desktop\example .py 


Cc: sersNiilu>, 


图 2-4 Windows CMD 运 行 界 面 
通常 ，Python 程 序 文件 的 头 部 会 添加 两 行 特殊 的 字符 串 ， 如 代码 清单 2-1 所 示 。 


代码 清单 2-1: example.py 


# ! /usr/bin/python 
# -*- coding; utf-8 =*= 


其 中 第 一 行 在 Windows 系 统 当中 没有 意义 ， 这 是 专门 给 Python 代 码 在 Mac OS X 或 Linux 上 运行 的 用 户 使 用 的 向 。 第 二 行 对 于 非 英文 用 户 是 比较 关键 的 ， 它 说 明了 程序 文件 是 以 utf-8 编 码 保存 的 ， 中 文 
和 其 他 非 AsCll 字 符 的 文字 需要 以 这 种 方式 保存 在 Python 程序 中 。 另 外 由 于 Python shell 只 能 输入 AsCll 字 符 ， 所 以 通过 编写 Python 程序 文件 也 可 以 实现 对 中 文 的 处 理 ， 比 如 代码 清单 2-2。 


代码 清单 2-2: hello.py 


# ! /usr/bin/python 
# -*~= coding; utf-8 ~*— 
print ("你 好 ， 世 界 ") 


在 Mac OS X 终 端 上 执行 之 后 的 结果 是 : 


jilu:~:% Python ~/Downloads/hello.py 
你 好 ， 世 界 


Windows 命 令 行 执行 的 命令 是 “pythonC:\UsersNjilu\Desktop\hello.py”， 在 本 书 以 后 的 章节 里 ， 如 果 提 到 运行 Python 程序 ， 则 表示 是 在 终端 或 命令 行 中 使 用 python 命 令 调用 代码 清单 ， 我 会 直接 
给 出 代码 清单 和 运行 结果 ， 而 省 略 运行 的 步骤 。 


这 里 还 有 一 些小 技巧 可 以 帮助 读者 快速 地 输入 代码 清单 的 存储 路 径 ， 即 无 论 在 何 种 操作 系统 下 ， 都 可 以 通过 鼠标 拖 披 代码 清单 的 文件 到 命令 行 里 ， 命 令 行 中 会 自动 打出 该 文件 的 路 径 ， 之 后 就 只 需要 再 
补充 python 命 令 即 可 。 


[1 如 果 不 付费 偶尔 会 有 弹 窗 提示 ， 但 是 不 妨碍 使 用 。 
因为 在 这 两 个 系统 上 ，Python 代 码 可 以 单独 启动 ， 在 命令 行 中 程序 前 的 python 并 不 是 必须 的 ， 所 以 程序 需要 知道 使 用 哪个 Python 解释 器 来 运行 。 因 为 这 将 涉及 这 个 系统 独 有 的 文件 权限 ， 此 处 就 不 再 展开 


在 第 1 章 中 我 们 已 经 接触 过 字符 串 了 ，Python 不 像 其 他 语言 一 样 有 字符 类 型 []， 在 Python 中 ， 一 个 字符 仅仅 是 包含 一 个 字符 的 字符 串 。 而 且 字符 串 也 能 够 进行 运算 ， 主 要 支持 两 种 运算 
符 “+” 和 “*””， 示 例 代 码 如 下 : 


>>> "van + bn 
aby 

>>> manx3 
"aaal 

b> 


这 两 个 运算 符 很 容易 理解 ，“+” 代 表 字符 串 拼接 ， 可 以 组 合 两 个 字符 串 ; “*” 代 表 复 制 多 份 然后 拼接 ，“*” 后 面 的 数字 就 是 需要 复制 的 份 数 ; 当 比较 两 个 字符 串 时 是 按照 字典 顺序 比较 大 小 的 。 称 为 


运算 符 的 重 载 。 由 于 字符 串 类 型 是 一 种 序列 类 型 ， 所 以 当 我 们 只 想 取得 这 个 序列 中 的 一 部 分 时 ， 可 以 使 


Python 中 的 分 片 操作 : 


= "abcdefg' 
1s=1] 


这 里 首先 将 字符 串 
分 片 操作 ， 冒 号 前 后 的 两 个 值 为 分 片 的 位 
开始 的 ， 这 很 容易 理解 ， 因 为 数学 里 的 实数 域 没 有 -0 这 个 值 。 而 且 
列 分 片 为 什么 要 这 样 设计 ， 但 实际 上 这 种 左 闭 右 开 的 


“abcdefg” 赋 值 给 变量 s， 然 后 在 s 后 面 用 一 对 方 括号 将 两 个 数字 和 一 个 冒号 括 起 来 ， 输 出 的 结果 正好 是 去 掉 第 一 个 和 最 后 一 个 字符 ， 这 就 是 Python 中 对 于 序列 类 型 的 对 象 所 进行 的 
。1 代 表 序列 中 位 置 为 1 的 值 ，-1 代 表 序 列 中 倒数 第 一 个 值 。 这 里 需要 注意 的 是 ， 在 Python 中 序列 索引 是 以 0 开始 的 [站 ， 而 且 支 持 负数 索引 ， 不 过 负数 索引 是 从 -1 
区 间 是 左 闭 右 开 的 ， 即 [1:-1] 代 表 从 索引 为 1 (并 且 包 括 1) 的 值 开始 ， 直 到 索引 为 -1 (不 包括 -1) 的 值 。 初 学 编程 的 人 可 能 会 难以 理解 序 
区 间 是 很 方便 的 一 种 结构 ， 在 2.2 节 讲解 循环 的 时 候 会 做 进一步 讲解 。 另 外 针对 序列 分 片 还 有 一 个 小 技巧 : 


So> s[1:-1:2] 
baf’ 

>z> s[1:~1:1] 
'bcdef' 

>>> 


如 果 在 代表 分 片 的 方 括号 中 再 增加 一 个 冒号 之 后 跟 一 个 数字 ， 那 么 这 个 数字 就 代表 以 什么 样 的 步 长 进行 分 片 ? 假设 这 个 值 为 2 


际 上 如 果 不 指 定 则 最 后 一 个 数字 默认 的 步 长 为 1， 


“s[1:-1:1]” 与 “s[1:-1]” 的 结果 是 一 致 的 。 当 然 步 长 也 可 以 是 负数 ， 聪 明 的 读者 肯定 一 下 子 就 会 明白 


， 分 片 会 前 进 两 个 字符 再 取出 一 个 字符 ， 就 会 得 到 “bdf” 这 样 的 结果 。 实 
我 的 


23> S[::=1] 
"gfedcba' 


这 里 在 步 长 为 -1 时 左右 颠倒 了 这 个 字符 串 。 


而 且 当选 取 整 个 序列 时 ， 起 始 和 终止 索引 可 以 省 略 ， 只 留 下 两 个 冒号 即 可 。 所 以 在 Python 中 分 片 的 完整 表达 式 如 下 : 


s[start:end:step] 


当 指 定 的 索引 超出 了 字符 串 的 长 度 时 ,我们 就 会 得 到 一 个 异常 : 


>>> s[-11] 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

IndexError: string index out of range 


Python 的 异常 是 从 上 向 下 阅读 中 ， 最 后 一 行 “IndexError” 代 表 错 误 的 类 型 ， 
会 有 专门 介绍 异常 处 理 的 内 容 。 


最 后 ， 对 于 一 个 字符 串 ， 要 知道 如 何 确定 其 长 度 ， 代 码 如 下 : 


“File” 开 始 的 这 一 行 中 “line 1” 代 表 出 错 程序 在 文件 中 的 行 号 ， 这 些 信息 有 助 于 我 们 找到 程序 出 错 的 位 置 ， 后 续 的 章节 


>>> len(s) 
这 很 容易 ，“len()” 是 一 个 内 置 的 函数 ， 可 以 获取 任意 序列 类 型 对 象 的 长 度 ， 在 这 里 s 字 符 串 拥 有 7 个 字符 。 


[由 实际 上 Python 没有 任何 基础 数据 类 型 ， 在 Python 中 一 切 都 是 对 象 ， 比 如 数字 1 是 int 类 型 的 一 个 对 象 ， 而 int 也 是 Type 的 对 象 ， 这 个 概念 比较 高 级 ， 后 文中 会 有 所 讨论 。 


[2 引 如 果 读者 学 习 过 MATILAB 语 言 ， 可 能 会 不 习惯 ， 因 为 MATLAB 的 序列 索引 是 从 1 开始 的 。 


[BB] 这 一 点 都 没有 侮 异 读者 智商 的 意思 ， 因 为 Java 的 异常 是 从 下 往 上 读 ， 这 让 我 在 学 习 Java 时 伤 了 不 少 脑筋 ， 如 果 读者 学 习 过 Java 在 这 里 就 要 注意 了 。 


2.3 ”获取 键盘 输入 


从 


面 已 经 学 习 过 如 何 将 字符 串 打 印 到 屏幕 上 了 ， 接 下 来 将 通过 一 段 程序 来 演示 从 键盘 输入 ， 


ED 


代码 清单 2-3: input_example.py 


幕 输出 的 整个 过 程 ， 见 代码 清单 2-3。 


# ! /usr/bin/python 
着 =# Codingy utf-8 ~*~— 


name = raw input ("Who are you?") 

print ("Hello " + name) 

n= raw input ("Please input a number: ") 
print (type (n)) 

print (type (int (n) ) ) 


清单 运行 的 结果 如 下 : 


jilu:book:% Python input example.py 
Who are you?jilu 

Hello jilu 

Please input a number: 12 

<type 'str'> 

<type 'int'> 


0 和 一 


的 字符 是 需要 通过 键盘 输入 ， 然 后 


回 


请 读者 一 定 要 尝试 运行 一 下 ， 上 面 的 运行 结果 中 ， 第 二 行 的 “? ”和 第 
了 。raw_input0 函 数 括号 中 的 字符 串 是 提示 语句 ， 会 在 程序 执行 时 打印 到 


“后 


H 


车 的 。 尝 试 之 后 ， 读 者 就 能 直观 地 感受 到 如 何在 程序 运行 时 通过 键盘 输入 
屏幕 上 ， 提 示 需 要 输入 的 内 容 。 而 通过 键盘 输入 的 内 容 则 会 被 绑 定 到 变量 name 上 ， 最 后 通过 字符 串 加 法 将 两 段 内 容 拼 起 来 并 且 打 


0 


印 到 


幕 上 ， 这 样 就 完成 了 一 个 先 输入 再 输出 的 过 程 。 需 要 注意 的 是 ， 通 过 这 种 方式 输入 时 ， 无 论 是 字符 串 还 是 数字 都 会 以 字符 串 的 类 型 绑 定 到 变量 上 ， 可 以 使 


type() 函 数 看 到 其 类 型 ， 即 使 第 四 行 输入 


的 是 一 个 数字 ， 依 然 只 得 到 了 str 类 型 的 12， 此 时 可 以 用 int() 函 数 将 其 转换 为 整形 。 在 Python 中 ， 所 有 的 类 型 都 对 应 了 一 个 同名 的 


2.4 ”流程 控制 


函数 ， 可 以 尝试 将 其 他 类 型 的 值 转换 成 该 类 型 的 值 ， 比 如 str0)、float0 等 。 


到 目前 为 止 ， 我 们 所 编写 的 程序 都 是 线性 的 程序 ， 程 序 中 的 语句 按照 顺序 依次 被 执行 ， 这 样 的 程序 能 实现 的 功能 非常 有 限 ， 而 且 还 需要 编写 大 量 的 代码 ， 损 失 了 编写 程序 执行 任务 的 大 部 分 优势 。 
上 ,， 可 以 使 用 条 件 判断 及 循环 这 两 种 常用 的 方式 更 有 效率 地 编写 程序 。 


由 
将 


2.4.1 条 件 判断 


带 有 条 件 判断 的 程序 又 称 为 “分 支 程序 ”， 这 样 的 程序 由 如 三 个 部 分 构成 。 
. 一 个 条 件 判 断 ， 对 一 个 表达 式 求 值 ， 结 果 是 True 或 False。 

' 一 个 代码 块 ， 如 果 条 件 判 断 为 True， 则 执行 这 部 分 代码 。 

. 一 个 可 选 的 代码 块 ， 如 果 条 件 判 断 为 False， 则 执行 这 部 分 的 代码 。 


这 样 的 代码 可 以 执行 某 些 规则 的 比较 ， 比 如 下 面 这 段 程序 : 


if sex =— "man”: 
Print("he") 
else 


print ("her") 


我 们 在 性 别 分 别 为 男 或 女 时 打印 出 不 同 的 代词 ， 当 然 也 可 以 做 数学 运算 ， 比 如 使 用 取 模 的 方式 x%2= =0 来 判断 奇偶 。 还 记得 吗 ? “==” 代 表 的 是 比较 ， 求 值 之 后 的 结果 是 布尔 型 的 True 或 False， 
而 “=” 代 表 的 是 赋值 ， 不 要 搞 混 这 两 个 概念 。 


Python 中 另外 一 个 重要 的 概念 就 是 缩 进 。 Python 不 像 其 他 语言 使 用 “” 或 “{( 、 “}” 来 分 割 代码 块 ，Python 只 使 用 一 个 缩 进 来 区 分 语法 块 ， 比 如 上 面 代码 中 的 第 二 行 及 第 四 行 。 虽 然 很 多 人 对 这 种 
方式 颇 有 微 词 ， 但 是 缩 进 处 理 的 方法 有 一 个 好 处 ， 代 码 在 视觉 上 和 逻辑 上 的 结构 是 完全 一 致 的 。 比 如 下 面 这 一 段 C 代 码 : 


if (friend id != -1) { 

if (m->friendlist[friend id] .status >= FRIEND CONFIRMED) 
return FAERR ALREADYSENT; 

} 


这 段 代 码 是 完全 正确 的 ， 但 是 读者 能 够 很 轻易 地 区 分 出 这 段 代 码 中 的 两 个 if 是 在 同一 个 逻辑 层级 还 是 在 不 同 的 逻辑 层级 上 。 在 Python 中 正确 的 缩 进 应 该 是 像 下 面 这 样 的 : 


if (friend id != -1) { 
if (m->friendlist[friend id] .status >= FRIEND CONFIRMED) 
return FAERR ALREADYSENT; 
} 


这 样 阅读 代码 的 时 候 钦 辑 确实 更 加 清晰 了 。 除 了 简单 的 ifhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach _ ebook/uncompressed/16309/OEBPS/Text/...elsehttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/16309/OEBPS/Text/... 语 句 之 外 ， 还 有 一 个 关键 字 “elif ， 这 个 关键 字 是 “else if” 的 缩写 ,我 们 可 以 写 一 个 更 加 复杂 的 条 件 判断 语句 : 


| 


和 0: 
print "2 和 3 的 最 小 公 倍 数 " 
elif X 委 3 一 0: 
Print "可 以 被 3 整除 却 不 可 以 被 2 整除 的 数 " 


else: 


在 上 面 的 程序 中 ，elif 语 句 的 后 面 还 可 以 写 一 个 条 件 判断 语句 。 需 要 注意 的 一 点 是 ， 若 elif 语 句 之 前 的 某 个 if 或 elif 语 句 不 成 立 ， 就 不 会 继续 执行 下 去 了 ， 所 以 条 件 判断 的 顺序 很 重要 。 


EG: 


里 然 条 件 判断 语句 增强 了 我 们 编写 程序 的 能 力 ， 但 还 有 一 个 大 问题 需要 解决 ， 那 就 是 如 何 让 电脑 任劳任怨 地 做 我 们 为 其 安排 的 工作 ， 这 将 会 涉及 2.2.2 节 将 要 介绍 的 流程 控制 方法 。 


2.4.2 ”循环 


Python 中 的 循环 分 为 两 种 ， 让 我 们 先 从 读者 可 能 比较 熟悉 的 while 循 环 说 起 。 与 条 件 判断 语句 类 似 ，while 循 环 也 是 由 条 件 判 断 语句 和 代码 块 构成 的 ， 示 例 代 码 如 下 : 


X=5 

iters = 10 

ans = 0 

while iters > 0: 
ans = ans 十 x 
iters -= 工 

print ans 


上 面 的 代码 是 计算 5*10 这 个 语句 的 复杂 写法 ， 先 不 要 纠结 这 些 细节 ， 让 我 们 来 看 看 while 循 环 需要 哪些 东西 。 这 段 程序 的 本 质 是 将 10 个 5 加 起 来 ， 所 以 需要 循环 10 次 ， 这 一 点 可 以 从 iters 这 个 变量 中 确 
认 ， 而 变量 ans 则 用 于 存储 相 加 的 总 和 。iters> 0 是 条 件 判断 语句 ， 当 这 个 语句 的 结果 为 False 时 ， 这 个 循环 就 会 终止 。 而 程序 块 中 一 定 要 有 一 个 语句 用 于 减少 iters 的 值 ， 即 iters-=1 这 个 语句 ， 以 保证 循环 最 
终 会 停止 。 我 们 可 以 在 纸 上 手 工 计算 这 个 程序 ， 每 一 次 迭代 之 后 ans 的 值 应 该 是 : 5，10，15，20，25，30，35，40，45，50。 


如 果 忘 记 了 增加 iters-=1 会 怎么 样 呢 ? 结果 就 是 这 个 程序 永远 都 不 会 终止 ， 直 到 整数 溢出 错误 发 生 ， 所 以 请 一 定 要 多 加 注意 。 


Python 的 第 二 个 循环 方式 是 for 循 环 ， 与 其 他 编程 语言 一 样 ，for 循 环 是 一 种 比 while 更 简便 的 表达 方式 。 虽 然 用 while 循 环 可 以 实现 所 有 的 循环 ， 但 是 如 果 类 似 iters-=1 这 样 的 语句 忘记 写 了 ， 或 者 写 错 
了 ， 就 会 发 生死 循环 。 而 for 循 环 在 很 多 时 候 都 能 避免 此 类 的 情况 发 生 ， 因 为 for 循 环 实现 的 出 发 点 就 是 循环 次 数 是 已 知 的 。 下 面 来 看 一 个 计算 乘法 的 for 循 环 版 本 : 


区 二 5 

ans = 0 

for iters in range (10) : 
ans = ans 十 x 

Print ans 


这 个 程序 中 range() 函 数 可 以 生成 一 个 数列 ， 遵 循 左 闭 右 开 的 规则 从 0 至 9， 让 我 们 使 用 for 循 环 打 印 出 来 查看 一 下 : 


>>> for iters in range(10): 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print iters 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


Vonammewn 品 


在 for 循 环 中 ，in 后 面 一 定 是 一 个 序列 ， 然 后 在 每 一 次 循环 中 序列 中 的 值 都 会 依次 赋值 给 iters， 直 到 序列 的 最 后 一 个 值 循环 终止 时 为 止 。 与 序列 的 分 片 一 样 ，range 可 以 传 入 start、end、step 三 个 参 
比如 : 


>>> for iters in range(5, 50, 5): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print iters 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
电 

10 

15 

20 

25 

30 

35 

40 

45 

>>> 


上 面 的 程序 会 生成 一 个 从 5 起 始 ， 到 50 终 止 ， 步 长 为 5 的 序列 。 如 果 要 生成 的 序列 过 长 ， 可 以 使 用 xrange0) 函 数 代 蔡 range( 函 数 ，xrange( 函 数 是 range() 函 数 的 生成 器 版 本 0]， 可 以 在 序列 很 长 的 时 候 


节约 内 存 。 


与 其 他 语言 一 样 ，Python 的 两 种 循环 都 支持 continue 和 break 语 句 ， 比 如 : 


>>>x=1 
>>> ans = 0 
>>> for iters in range (100) : 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... ans = ans + x 
http://waw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... if ans % 3 = 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... continue 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... if ans >= 10: 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/,.. break 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (ans) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

二 

及 

4 

5 

7 

8 

>>> 


在 上 面 的 程序 中 ， 第 一 个 if 中 的 continue 会 在 ans 能 在 被 3 整除 的 时 候 跳 过 当前 这 个 循环 ， 所 以 可 以 发 现在 输出 结果 中 3、6 和 9 不 见 了 。 而 第 二 个 if 语句 在 使 用 break 语 句 时 如 果 ans 大 于 10 就 会 跳 过 整个 


循环 程序 块 ， 即 使 循环 次 数 没有 达到 100 次 也 会 跳出 。 


[忠生 成 器 可 以 理解 成 是 lazy load 的 一 种 方法 ， 直 到 这 个 值 真 正 需要 的 时 候 才 会 被 计算 出 来 。 


2.4.3” 缩 进 、 空 白 和 注释 


Python 中 不 需要 用 “;” 和 “人 ”来 对 代码 块 进行 分 割 ， 而 是 使 用 缩 进来 进行 分 割 。 有 些 初学 者 在 使 用 文本 编辑 器 时 往往 没有 注意 空格 缩 进 与 tab 的 区 别 ， 叶 致 程序 执行 出 错 ， 这 是 需要 注意 的 。 而 且 一 


旦 决定 分 隔 符 的 空格 数 就 要 一 直 使 用 相同 的 空格 数 作为 缩 进 ， 通 常 来 说 ，Python 官 方 建议 使 用 4 个 空格 作为 分 隔 符 。 不 幸 的 是 ，Sublime Text 3 的 默认 分 割 符 是 tab， 读 者 可 以 尝试 在 
Performance>Settings-User 打 开 的 文件 中 插入 两 行 ， 以 确保 换行 之 后 自动 插入 4 个 空格 的 缩 进 : 


院 


{ 
"tab size": 4, 
"translate tabs to spaces": true 


} 


在 Python 中 ， 空 白 行 是 没有 任何 意义 的 ， 用 来 保证 美观 即 可 。 通 常 来 说 ， 钦 辑 上 无 关 的 程序 块 之 间 需 要 用 两 个 空 行 进行 分 着。 注释 同样 没有 意义 ， 通 常 以 “# ”开头 。 多 行 注释 可 以 用 来 进行 大 段 的 描 
使 用 三 引号 进行 表达 ， 下 面 就 列 出 几 种 常见 的 Python 注释 。 


由 


行 注释 : 


# Make sure the instance knows which cache to remove itself from. 


多 行 注释 : 


"nA blocking HTTP client. 
This interface is provided for convenience and testing; most applications 


that are running an IOLoop will want to use “AsyncHTTPC1Lient ”instead. 
Typical usage looks like this:: 


第 3 章 ”函数 及 异常 处 理 


第 2 章 已 经 介绍 了 数据 类 型 、 基 本 运算 、 分 支 、 循 环 这 些 语句 。 它 们 是 Python 程序 的 一 个 基本 模块 ， 理 论 上 这 些 语句 已 经 可 以 完成 一 个 程序 的 全 部 功能 。 不 过 现代 语言 的 发 展 为 编程 语言 赋予 了 更 多 的 


能 力 ， 比 如 本 章 要 介绍 的 函数 ， 可 以 将 计算 进行 抽象 ， 为 一 段 复杂 的 处 理 起 一 个 名 字 ， 以 便 将 来 重复 使 用 。 在 讲解 函数 之 前 ， 先 来 看 一 段 没 有 使 用 函数 的 代码 ， 代 码 清单 3-1 是 一 段 寻 找 前 n 个 质数 中 的 程 
序 。 


代码 清单 3-1: find_primes.py 


primes = [2] 
i=1 
num= 3 
n= 10 
while i < n: 
flag=1 
for prime in primes: 
if num % prime == 0: 
flag = 0 
break 
if flag 一 1: 
Primes.append (num) 
至 至 注 吉 二 


num = num + 工 


Print (Primes) 


众所周知 ， 第 一 个 质数 2， 所 以 这 里 先 将 2 存 入 结果 的 列表 primes 里 。 虽 然 我 们 还 没有 学 习 过 列表 ， 但 是 你 可 以 把 它 想象 成 是 字符 串 ， 列 表 是 与 字符 串 类 似 的 一 种 数据 结构 ， 由 一 连 串 的 对 象 组 成 ， 而 且 
列表 左右 两 人 出 有 一 对 方 括号 。 代 码 中 的 i 代表 一 共 找 到 了 多 少 个 质数 ， 因 为 我 们 已 经 找到 了 质数 2， 所 以 i 的 默认 值 是 |。num 是 当前 需要 判断 是 否 为 质数 的 数字 ， 所 以 这 里 要 从 3 开始 继续 判断 。n 代 表 最 多 找 
到 几 个 质数 为 止 。 接 下 来 就 是 程序 的 主要 部 分 一 通过 穷 举 法 寻找 质数 的 主 循环 。 我 们 将 会 从 3 开始 ， 接 下 来 一 次 增加 1， 注 意 判断 当前 这 个 数字 是 不 是 质数 。 判 断 质数 的 方法 很 简单 ， 只 需要 判断 当前 的 数字 
是 否 能 被 已 经 发 现 的 质数 整除 即 可 ， 不 能 被 整除 的 就 是 新 的 质数 。 而 num 则 会 在 每 一 次 循环 结束 时 自 增 1， 已 经 找到 的 质数 个 数 册 会 在 每 一 次 找到 新 的 质数 时 自 增 1。 


while 循 环 的 终止 条 件 是 已 经 找到 n 个 质数 ， 在 循环 的 一 开始 flag 被 赋值 为 1， 以 表示 一 个 新 的 判断 质数 的 循环 开始 ， 接 下 来 的 for 循 环 将 会 尝试 把 当前 的 num 与 之 前 找到 的 全 部 质数 做 取 模 运 算 ， 以 确定 
当前 的 num 是 否 为 新 的 质数 ， 如 果 不 是 质数 ， 则 将 flag 赋 值 为 0， 并 且 中 断 循环 ， 以 表示 当前 的 数字 不 是 质数 。 如 果 当 前 的 数字 与 已 经 发 现 的 全 部 质数 取 模 之 后 ， 没 有 一 个 能 够 得 到 整除 的 结果 ， 那 么 就 表示 
发 现 了 新 的 质数 。 接 下 来 的 if 语句 则 会 把 当前 的 质数 存储 到 已 经 找到 的 质数 列表 primes 中 ， 这 里 使 用 append() 方 法 向 一 个 列表 的 末尾 追加 一 个 新 的 对 象 。 然 后 让 计数 总 计 找到 质数 个 数 的 i 自 增 1。 最 后 在 程 
序 的 未 尾 打印 全 部 的 结果 ， 如 下 : 


jilu:hook2:% python find primes.py 
【有 


从 结果 可 以 看 到 ， 包 括 2 在 内 已 经 找到 了 10 个 质数 。 这 段 代码 很 好 地 完成 了 任务 。 不 过 它 只 能 处 理 n 所 指定 的 值 ， 如 果 要 重用 这 段 代码 ， 只 能 复制 它们 到 另外 一 个 地 方 。 而 且 如 果 要 寻找 前 十 个 非 质 数 的 
数字 ， 则 只 能 修改 代码 ， 但 实际 上 判断 是 否 为 质数 的 功能 并 没有 改变 。 如 果 一 个 较 大 的 程序 需要 适当 的 灵活 性 ， 以 及 与 之 类 似 却 稍 有 不 同 的 功能 ， 我 们 将 不 得 不 维护 几 段 几乎 相同 却 又 有 所 不 同 的 代码 。 这 
是 一 个 非常 糟糕 的 设计 ， 如 果 在 编写 第 一 段 代 码 时 有 一 点 微小 的 错误 到 后 来 才 发 现 ， 那 么 就 要 修改 所 有 复制 过 这 段 代码 的 地 方 ， 这 会 给 我 们 的 程序 带 来 极 大 的 风险 ， 我 们 可 能 忘记 修改 曾经 复制 过 这 段 代码 
的 某 一 处 。 所 幸 Python 提 供 了 一 种 方法 可 以 简单 地 处 理 这 种 情况 一 函数 。 


四 质数 是 数学 中 的 一 种 特殊 数字 ， 这 些 数字 只 能 被 自身 和 1 整除 。 


3.1 函数 和 函数 的 参数 


面 我 们 已 经 使 用 过 Python 内 建 的 函数 了 ， 比 如 print(0 函 数 ， 其 中 print 是 函数 的 名 字 ， 括 号 中 是 函数 的 参数 。 下 面 让 我 们 来 看 一 下 更 多 的 Python 内 建 函数 吧 。 


到 


Python 2.7.11 (default, Jan 28 2016, 13:11:18) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> 

>>> len('abcde') 

5 


>>> max (2, 6) 
6 
>>> min (3, 8) 
3 


>>> sum([1, 2, 3, 4, 5, 6, 7]) 


在 上 述 代码 中 ，len 可 以 计算 出 序列 类 型 的 对 象 长 度 ， 比 如 “abcde” 的 长 度 就 是 5。max 可 以 给 出 比较 结果 中 较 大 的 值 ，min 则 相反 。sum 可 以 累加 所 有 的 值 ，abs 是 求 绝 对 值 ， 等 等 。 更 多 的 关于 数学 
计算 的 函数 包含 在 math 这 个 模块 当中 ， 可 以 通过 import math 来 使 用 ， 后 续 的 章节 中 会 做 进一步 的 介绍 。 


3.1.1 定义 函数 


在 Python 中 定义 函数 需要 使 用 def 关 键 字 ， 比 如 我 们 可 以 定义 一 个 计算 绝对 值 的 函数 : 


def my_abs (num) : 
if num < 0: 
return -num 
return num 


在 第 一 行 代码 中 ，def 关 键 字 之 后 的 my_abs 即 为 函数 的 名 字 ， 而 括号 中 的 num 则 是 函数 的 参数 。 如 果 函 数 有 多 个 参数 ， 则 在 括号 中 以 逗号 隔 开 各 个 参数 ， 比 如 在 实现 一 个 求 最 大 值 的 函数 时 可 采用 如 下 
代码 : 


def my max(a, b): 
if a >= b: 
return a 
else: 
return b 


这 个 函数 中 有 两 个 参数 。 参 数 又 分 为 实 参 和 形 参 两 种 。 比 如 my_max(3,4) 中 ，3 和 4 称 为 实 参 ， 也 就 是 实际 的 参数 ， 而 定义 中 的 a 和 b 则 称 为 形 参 ， 即 形式 上 的 参数 。 在 函数 的 调用 中 ，3 将 会 被 赋值 到 a 
上 ， 而 4 则 会 被 赋值 到 b 上 。 在 函数 的 定义 中 ， 会 根据 情况 决定 是 否 需要 return 语 句 。 对 于 上 面 两 个 函数 ， 因 为 需要 将 结果 传递 出 来 ， 所 以 就 需要 return 语 句 。return 语 句 是 一 个 函数 的 终点 ， 一 旦 一 个 函数 
执行 到 return 语 句 ， 后 面 的 语句 就 都 不 会 执行 了 。 与 参数 一 样 ，return 也 可 以 返回 多 个 结果 ， 比 如 下 面 这 个 函数 : 


def flip(x, y): 
return y, x 


当然 这 个 函数 没有 做 什么 复杂 的 事情 ， 只 是 将 输入 的 参数 调换 一 下 了 顺序 ， 如 下 : 


>>> flip(1，2) 

(2, 1) 

> 

> ar b= flipli, 对 
>>> a 

2 

>>> b 

让 

>>> 


从 Python shell 的 结果 上 来 看 ， 该 函数 确实 return 了 两 个 结果 ， 而 且 我 们 可 以 用 两 个 变量 来 接受 其 返回 的 结果 ， 可 以 看 到 a 被 赋值 成 了 2，b 被 赋值 成 了 1。 这 种 从 函数 的 多 个 返回 值 中 赋值 的 方式 在 
Python 中 称 为 “序列 解 包 / 


3.1.2 ”关键 字 参 数 和 默认 参数 


在 3.1.1 节 中 ， 使 用 的 参数 绑 定 方式 称 为 “位 置 参 数 ” ， 顾 名 思 义 就 是 根据 定义 和 调用 函数 时 参数 的 位 置 进行 参数 的 赋值 (也 称 为 参数 绑 定 ) 。 本 节 将 会 学 习 另 外 一 种 参数 绑 定 方式 一 关键 字 参 数 。 


关键 字 参 数 是 实 参 ， 它 通过 名 称 绑 定 到 形 参 上 ， 下 面 还 是 使 用 出 p 这 个 函数 来 演示 一 下 关键 字 参 数 的 绑 定 : 


>>> flip(y=1, x=2) 
(1, 2) 
>>> 


可 以 看 到 ， 虽 然 经 历 了 flip 函 数 的 翻转 ，x 和 y 的 顺序 并 没有 改变 ， 这 是 因为 我 们 通过 制定 关键 字 参 数 的 参数 名 的 方式 改变 了 参数 的 位 置 ， 将 1 绑 定 到 了 y 上 ，2 绑 定 到 了 x 上 。 而 且 关键 字 参 数 可 以 和 位 置 参 
数 混用 ， 请 考虑 一 个 包含 三 个 参数 的 函数 ， 比 如 要 定义 一 个 my_range 函 数 : 


def my range (start=None, stop=None, step=1) : # known special case of range 


套用 内 置 range 函 数 


return range(start, stop, step) 


在 这 个 函数 中 我 们 可 以 看 到 Python 的 两 种 注释 方式 ， 一 个 是 第 一 行 末尾 以 “#'” 开头 的 单行 注释 ， 另 外 一 个 是 由 一 对 三 引号 括 起 来 的 多 行 注释 。 如 果 调用 这 个 函数 : 


>>> def my_range (start=None, stop=None, step=1): 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... return range (start, stop, step) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
>>> my_range (1, 10, step=2) 
[1, 3, 5, 7, 9] 
>>> my_range (1, stop=10, step=2) 
[ie 37 Sr Tr NW 
>>> my_range (1, stop=10, step) 
File "<stdin>", line 1 
SyntaxError: non-keyword arg after keyword arg 
>>> 
>>> my_range (1, 10) 
[1, 2, 3, 4, 5, 6, 7, 8, 9] 
> 


那么 ， 我 们 会 发 现在 关键 字 参 数 后 面 使 用 位 置 参数 时 会 报 SyntaxError 异 常 ， 是 的 ，Python 不 允许 我 们 这 么 做 ! 最 后 一 个 调用 ， 利 用 了 Python 的 默认 参数 这 个 特性 ， 在 定义 函数 时 将 step 指 定 为 一 个 默 
认为 1 的 值 ， 在 以 后 的 调用 中 ， 如 果 没 有 为 step 传 递 位 置 参 数 或 关键 字 参 数 ， 那 么 程序 将 会 使 用 这 个 默认 值 。 


3.1.3 ”可 变数 量 的 参数 


在 Python 中 还 可 以 定义 可 变数 量 的 参数 。 有 的 时 候 我 们 不 能 够 在 一 开始 就 确定 程序 参数 的 个 数 ， 比 如 前 面 曾经 介绍 过 的 max() 函 数 ， 实 际 上 能 够 处 理 超过 2 个 输入 参数 的 比较 操作 ， 像 下 面 这 样 : 


Python 2.7.11 (default, Jan 28 2016, 13:11:18) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> max(1l, 4, 2, 6) 

6 

>>> max (1,4,2) 

4 

>>> max(1l, 4, 2, 6, 8) 

8 


>>> 


那么 函数 要 如 何 定义 才能 像 上 面 一 样 使 用 呢 ? 示例 如 下 : 


>>> def func(*args, **kwargs): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (args, kwargs) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

>>> func(1l, 2, 3, a=1l, b=2) 


tbe Se WN a 
Dy Eine(l*lls. 2 3 *e{t'ary Ye Dr'y 2 
((1, 2, 3), {'a': 1, 'b': 2}) 


>>> def funcl (x, y, z, a, b): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (tn Ww wr Tas a Drs Ss} 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

Sx finel (XIis Zp. B17 2#E "ats Ly bre 2 

((1, 27 3)r fa’: 1, ‘b's 2}) 

>>> 


这 里 一 开始 定义 了 一 个 函数 ， 位 置 形 参 的 部 分 是 以 一 个 “*” 开头 的 args， 关 键 字形 参 部 分 是 以 两 个 “*“” 开始 的 kwargs， 这 是 Python 可 变数 量 参数 的 标准 写法 ， 表 示 任 意 数 量 的 位 置 参 数 都 会 合并 成 一 
个 元 组 ， 并 绑 定 到 args 上 ， 而 任意 数量 的 关键 字 参 数 则 会 合并 成 一 个 字典 绑 定 到 kwargs 上 。 关 于 元 组 和 字典 会 在 第 5 章 进行 详细 讲解 ， 这 里 只 需要 知道 元 组 是 由 圆 括号 括 起 来 的 一 组 连续 的 数据 ， 如 
(1,2,3); 而 字典 是 由 很 多 组 “ 键 : 值 ”组 成 的 数据 结构 ， 如 {'a":1,'b':2}。 在 第 一 次 调用 函数 func 时 就 可 以 发 现 ，func 打 印 出 来 的 args 和 kwargs 分 别 是 元 组 和 字典 。 而 且 如 果 原 始 的 参数 是 元 组 (或 列表 ) 或 


字典 ， 那 么 也 可 以 在 调用 函数 时 在 实 参 前 对 应 地 加 上 一 个 “*” 或 两 个 “*” ， 这 样 就 可 以 使 得 实 参 绑 定 到 对 应 的 形 参 上 。 通 过 紧 接 着 的 第 二 个 函数 的 定义 func1 可 以 更 加 清楚 地 看 到 这 一 点 。 这 里 一 共 定 义 了 


5 个 位 置 形 参 ， 在 调用 函数 时 ,，“*[1,2,3] 会 自动 绑 定 到 前 三 个 位 置 参数 上 ， 而 实 参 {a :1,b :2} 则 按照 键 与 关键 字形 参 的 对 应 关系 进行 了 绑 定 ， 打 印 的 结果 与 之 前 的 调用 方式 没有 任何 区 别 。 


Python 的 函数 中 参数 绑 定 是 比较 灵活 的 ， 而 且 函 数 的 功能 十 分 强大 ，3.2 节 会 讲解 闭 包 和 高 阶 函 数 。 


3.1.4 递归 


可 能 有 些 读者 已 经 听 说 过 递归 了 ， 并 且 一 定 会 觉得 这 是 个 高 深 的 话题 。 其 实 递归 本 来 就 是 源 于 人 类 对 生活 的 观察 。 可 以 考虑 这 样 一 种 情况 ， 假 设 一 个 细胞 每 隔 1 个 小 时 就 会 分 裂 一 次 ， 分 裂 出 来 的 细胞 还 


会 再 次 分 裂 ， 时 间 间 隔 同样 是 1 小 时 ， 那 么 10 个 小 时 之 后 会 有 多 少 个 细胞 ? 


首先 ， 得 有 一 个 基础 的 递归 (归纳 ) 计算 ， 用 于 计算 每 一 次 细胞 由 1 个 分 裂 成 2 个 。 然 后 ， 有 一 个 直接 给 出 的 终止 条 件 ， 即 分 裂 10 次 。 递 归 主 要 就 是 由 这 两 部 分 构成 的 ， 有 的 时 候 可 能 会 更 复杂 一 些 ， 那 


也 只 是 在 这 两 个 部 分 中 增加 一 些 额外 的 判断 条 件 。 


接 下 来 让 我 们 以 阶乘 的 计算 来 实例 演示 一 下 递归 。 阶 乘 在 数学 中 通常 表示 为 “n! ”， 代表 从 n 到 1 所 有 整数 相 乘 的 结果 。 在 这 里 可 以 归纳 出 递归 需要 的 两 个 部 分 : 


m+1)!= (n+1)*n! 


第 一 个 部 分 就 是 递归 的 终止 条 件 ， 第 二 个 部 分 代表 递归 的 方法 ， 可 以 通过 n! 计算 (n+1)! 这 样 ， 只 要 逐 层 计算 更 低 一 级 的 阶乘 ， 直 到 计算 到 1! 的 终止 条 件 为 止 。 下 面 让 我 们 用 递归 的 方法 来 实现 阶乘 


的 计算 : 


def fact(n) : 
TF 弛 天王 
Teturn ni * factl(ln = 1} 
else: 
return n 


这 个 函数 与 上 面 文字 所 描述 的 结构 一 样 ， 一 个 递归 函数 会 在 函数 内 部 调用 自身 来 实现 递归 式 ， 当 然 ， 不 要 忘记 最 后 增加 一 个 退出 条 件 。 


3.2 闭 包 


请 考虑 下 面 这 段 代码 会 输出 什么 样 的 结果 : 


i=2 
print (i) 


printt"*’ %* 209 


for i in range(10): 


print (i) 
print ('=" * 20) 
print (i) 


第 一 个 print( 等 于 2 是 毫 无 疑问 的 ， 接 下 来 的 for 循 环 似乎 会 从 0 打印 到 9， 那 么 最 后 一 个 会 打印 多 少 呢 ? 有 过 其 他 编程 语言 经 验 的 读者 可 能 会 说 打印 2。 但 是 在 Python 中 ， 这 就 有 些 多 虑 了 。 没 错 ， 就 像 


它 看 起 来 应 该 等 于 for 循 环 最 后 一 次 打印 的 值 一 样 ， 最 后 一 个 打印 的 结果 是 9， 读 者 不 妨 尝 试 一 下 ， 下 面 给 出 全 部 的 输出 结果 : 


>>> 工 = 2 
>>> print (i) 
2 


>>> 

Sp printt'*, 20} 

活 关 突 奖 实 关 兴 奖 奖 类 突 闪光 类 突 奖 奖 六 闪 

>>> 

>>> for i in range(10): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (i) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


oamwmewn 


x 

>>> print ('=' * 20) 
>>> 

>>> print 人) 

9 


>>> 


可 能 有 的 人 还 是 要 问 ，“for 循 环 是 一 个 语句 块 ， 不 应 该 在 退出 该 语句 块 时 销毁 ij 么 ? ”这 就 要 从 Python 语言 的 作用 域 说 起 了 。 作 用 域 也 称 为 命名 空间 ， 在 同一 个 作 
在 Python 中 ， 循 环 并 不 足以 创建 一 个 新 的 命名 空间 。 通 常 来 说 ，Python 会 从 内 到 外 逐 级 地 搜索 命名 空间 ， 而 闭 包 则 最 能 体现 这 一 原则 。 


很 多 现代 编程 语言 都 或 多 或 少 地 支持 闭 包 ，Java8 也 在 最 新 的 版 本 中 支持 了 闭 包 ， 要 想 理解 闭 包 ， 先 让 我 们 看 一 个 例子 ， 见 代码 清单 3-2。 


代码 清单 3-2: closure_example.py 


域 里 ， 同 名 变量 始终 是 一 个 值 。 而 


def gen counter (name) : 
count = [0] 
def counter () : 
count [0] += 1 
Print ('Hello,', name, ',', str(count[0]) + ' access!') 


return counter 


c= gen counter( ‘master') 


OO oo 


这 个 例子 在 函数 gen_counter 中 定义 了 另外 一 个 函数 counter(0， 并 且 将 变量 count 赋 值 为 “[0]”， 在 内 部 的 函数 中 引用 了 count 这 个 变量 。 现 在 让 我 们 调用 这 个 函数 几 次 ， 读 者 可 以 尝试 推测 一 下 每 次 
调用 c0 后 打印 的 值 : 


#python closure example.py 
Hello, master , 1 access! 
Hello, master , 2 access! 
Hello, master , 3 access! 


可 以 明显 地 看 到 ， 即 使 变量 count 的 值 在 内 部 ， 函 数 counter() 也 能 够 访问 ， 并 且 还 能 够 修改 并 保存 起 来 ， 下 次 调用 时 调用 的 次 数 会 进行 累加 ， 这 种 函数 引用 外 部 自由 变量 ， 而 且 虽 然 已 经 离开 了 定义 函 
数 的 环境 (第 一 次 调用 gen_counter 时 ) ， 但 仍然 可 以 访问 这 个 自由 变量 的 特性 就 称 为 闭 包 ， 换 言 之 闭 包 准确 的 定义 就 是 : 


在 计算 机 科学 中 ， 闭 包 (Closure) 又 称 词法 闭 包 (Lexical Closure) 或 函数 闭 包 (function closures) ， 是 引用 了 自由 变量 的 函数 。 这 个 被 引用 的 自由 变量 将 和 这 个 函数 一 同 存在 ， 即 使 已 经 离开 了 创造 它 
的 环境 也 不 例外 。 目 


如 果 不 写成 闭 包 ， 那 么 这 个 函数 还 能 不 能 使 用 呢 ? 比如 像 下 面 这 样 : 


count = [0] 
name = "master'" 


def counter () : 
count [0] += 1 
Print ('Hello,', name, ',', str(count[0]) + ' access!') 


Hello, master , 1 access! 
Hello, master , 2 access! 
Hello, master , 3 access! 


很 显然 ， 结 果 似乎 是 一 样 的 ， 在 这 个 例子 中 并 没有 使 用 闭 包 ， 而 是 把 count 和 name 作 为 全 局 变量 来 使 用 的 。 不 过 这 样 就 会 存在 一 个 问题 ， 全 局 变量 是 很 容易 被 修改 的 ， 如 果 在 程序 的 其 他 地 方 不 小 心 修 
改 了 全 局 变量 ， 那 么 将 会 影响 到 这 个 函数 的 求 值 。 而 闭 包 则 在 第 一 次 调用 外 层 函 数 时 就 把 变量 和 内 层 函 数 打包 在 一 起 了 ， 而 不 会 发 生 其 他 的 意外 。 而 且 由 于 只 有 在 需要 的 时 候 我 们 才 会 通过 调用 外 层 函 数 来 
定义 内 层 函 数 ， 这 就 给 了 我 们 一 个 “惰性 求 值 ”的 功能 一 只 在 需要 的 时 候 才 计算 ， 这 可 以 节约 一 部 分 计算 机 性 能 消耗 。 此 外 ， 只 要 你 愿意 ， 就 可 以 在 外 层 函 数 中 定义 多 个 内 层 函 数 ， 并 且 可 使 用 其 他 判断 条 
件 决定 在 调用 外 层 函 数 时 哪个 内 层 函 数 会 被 返回 ， 而 不 用 定义 重复 的 变量 ， 甚 至 可 以 在 内 部 定义 多 个 有 依赖 关系 的 函数 共同 使 用 一 组 变量 。 闭 包 可 以 为 函数 定义 环境 创建 一 个 小 型 的 命名 空间 ， 以 方便 我 们 
的 编程 。 


四 引 自 维基 百科 : https://zh.wikipedia.org/wiki/ 闭 包 (计算 机 科学 ) 。 


“异常 ”是 每 一 个 现代 编程 语言 都 拥有 的 机 制 IJ]， 在 Python 中 更 是 随处 可 见 ， 我 们 甚至 经 常 把 异常 当 作 一 种 流程 控制 的 手段 ， 让 其 自己 触发 异常 。 


打开 Python shell 输 入 下 面 的 语句 看 看 会 发 生 什 么 : 


>>> a = "ab' 

>>> a[2] 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

IndexError: list index out of range 

>>> 

:> > 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: cannot concatenate 'str' and 'int' objects 

>>> 

>>>b+a 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

NameError: name 'b' is not defined 

25> 

>>> int ("a") 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

ValueError: invalid literal for int() with base 10: 'a' 

>>> 


上 面 的 代码 试图 触发 一 下 常见 的 Python 内 建 异 常 (每 一 段 异 常 信息 的 最 后 一 行 ， 冒 号 前 的 名 字 是 异常 的 类 型 )， 这 些 异常 大 多 是 跟 Python 语 义 有 关 的 异常 。 比 如 第 一 个 是 IndexError， 表 示 尝 试 获取 
了 下 标 不 存在 的 值 ; 第 二 个 TypeError 表 示 字 符 串 类 型 和 证 书 类 型 不 可 以 相 加 ; 第 三 个 NameError 代 表 我 们 在 使 用 b 之 前 没有 定义 名 为 b 的 变量 ; 而 最 后 一 个 ValueError 则 代表 调用 int() 函 数 时 使 用 了 一 个 不 
支持 的 参数 值 。 事 实 上 ， 我 们 在 自己 编写 的 程序 中 经 常会 遇 到 这 些 异 常 ， 而 且 还 要 处 理 他 们 。 


有 些 时 候 你 知道 某 一 部 分 代码 可 能 会 出 现 异 常 ， 比 如 下 面 的 这 段 代 码 : 


>>> def qiv(a，b) : 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... return a/b 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/,.. 
S53> diwv(l, 0) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 2, in div 
ZeroDivisionError: integer division or modulo by zero 
>>> 


上 面 编写 了 一 个 函数 div 来 执行 除法 计算 ， 但 是 使 用 者 并 没有 明确 地 被 告知 除数 不 能 为 0， 如 果 他 不 小 心 使 用 了 0 作为 除数 就 会 导致 程序 崩溃 ， 这 是 我 们 不 希望 看 到 的 。 为 了 避免 类 似 的 事件 发 生 ， 也 可 以 
给 使 用 这 个 函数 的 人 一 些 提示 ， 比 如 ， 可 以 使 用 Python 的 异常 处 理 机 制 来 改写 这 个 函数 ， 现 在 这 个 函数 修改 如 下 : 


>>> def div(a, b): 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... tev 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... ret=a/b 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... except ZeroDivisionError: 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/,.. print ("除数 不 能 为 0") 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... ret = 0 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... return ret 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

> divt(tl; 0) 


除数 不 能 为 0 
>>> 


使 用 tryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/16309/OEBPS/Text/..except 语 法 ， 就 像 
ifhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach _ ebook/uncompressed/16309/OEBPS/Text/...else 语 法 一 样 ， 如 果 try 中 的 语句 正确 执行 ，except 中 的 语句 就 不 会 执 
行 。 而 except 后 面 的 ZeroDivisionError 则 是 需要 处 理 的 异常 类 型 。 有 些 时 候 我 们 还 要 处 理 更 多 的 异常 ， 那 么 就 再 增加 一 个 except 跟 上 0 个 、1 个 或 多 个 异常 类 型 ， 就 像 下 面 这 样 : 


>>> def div(a, b): 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... Eds 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... ret =a/b 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... except ZeroDivisionError: 

http://waw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print ("除数 不 能 为 0") 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... ret = 0 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... except (ValueError, NameError): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print ("已 知 的 异常 ") 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... ret =1 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... except: 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... raise StandardError ("未 知 的 异常 ") 
finally: 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print ('done') 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... return ret 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

>>> 

> div('a's 1 

done 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 11, in div 

StandardError: 未 知 的 异常 

>>> 


与 上 一 段 程序 相 比 ， 这 段 程序 有 一 点 不 同 ， 即 在 return 的 前 一 行使 用 了 raise 来 主动 抛 出 一 个 异常 ， 其 中 的 参数 会 在 程序 遭遇 这 个 异常 的 时 候 打 印 出 来 。 当 然 我 们 也 可 以 通过 except 捕 获 自己 抛 出 的 异 
常 。 另 外 如 果 存 在 无 论 如 何 都 要 运行 的 语句 块 ， 也 可 以 使 用 finally。 可 以 看 到 ， 在 上 例 中 即使 最 后 抛 出 了 StandardError， 也 还 是 打印 出 了 done，finally 就 是 这 样 无 论 如 何 都 会 执行 的 语句 。 


[由 C 语 言 是 没有 异常 机 制 的 ， 所 以 我 们 很 难 称 C 语 言 为 现代 编程 语言 。 
思 如 果 你 不 知道 该 抛 出 什么 异常 ， 就 使 用 StandardError。 


第 4 章 ”高 级 字符 串 处 理 


在 数据 科学 的 应 用 中 ， 很 多 场景 都 是 对 字符 串 的 处 理 ， 比 如 疏 虫 程序 、 统 计 程 序 ， 甚 至 自然 语 处 理 和 分 类 、 聚 类 程序 也 离 不 开 对 字符 串 的 处 理 。 有 的 读者 可 能 听 说 过 Python 2 中 臭名 昭著 的 Unicode 问 
题 ， 也 对 字符 串 编码 略 有 耳闻 ， 并 且 可 能 在 一 些 地 方刚 过 UTF-8 这 个 字样 。 本 章 将 简单 介绍 字符 串 编码 的 知识 ， 并 说 明 如 何在 Python 中 对 各 种 编码 进行 转换 ， 以 及 一 些 字 符 串 对 象 的 方法 、 格 式 化 等 内 容 。 
最 后 ， 还 会 讲解 一 下 如 何 使 用 非常 高 级 的 正则 表达 式 来 处 理 复 杂 的 字符 串 。 希 望 读 者 看 完 这 一 章 可 以 了 解 到 在 处 理 字符 串 的 任务 时 ，Python 所 带 来 的 巨大 便利 ， 这 也 是 笔者 选择 Python 作为 数据 科学 的 3 
力 工具 的 原因 之 一 。 


El 


4.1 字符 集 和 字符 编码 


很 多 时 候 我 们 会 看 到 Python 程序 文件 的 一 开始 有 这 样 一 行 注释 : 


大 一 dog wtf tt— 


这 其 中 涉及 字符 、 字 符 集 和 字符 编码 等 相关 内 容 ， 下 面 先 解释 一 下 这 三 个 概念 。 


“ 字符 (Character) : 是 各 种 文字 和 符号 的 总 称 ， 包 括 各 国家 文字 、 标 点 符号 、 图 形 符号 、 数 字 等 。 


“ 字符 集 (Character set) : 是 多 个 字符 的 集合 ， 字 符 集 的 种 类 较 多 ， 每 个 字符 集 包 含 的 字符 个 数 也 不 同 ， 常 见 的 字符 集 名 称 包括 : ASCII 字 符 集 、GB2312 字 符 集 、BIG5 字 符 集 、GB18030 字 符 集 、 


Unicode 字 符 集 等 。 


“ 字符 编码 (Character encoding) : 也 称 字 集 码 ， 是 把 字符 集中 的 字符 编码 为 指定 集合 中 的 菜 一 个 对 象 (例如: 比特 模式 、 自 然 数 序列 、8 位 组 或 电 脉冲 ) ， 以 便 在 计算 机 中 存储 和 通过 通信 网 络 传递 文 
本 。 常 见 的 例子 包括 将 拉丁 字母 表 编码 成 摩 斯 电码 和 ASCII。 其 中 ，ASCII 将 字母 、 数 字 和 其 他 符号 进行 编号 ， 并 用 7 比特 的 二 进 制 来 表示 这 个 整数 。 通 常会 额外 使 用 一 个 扩充 的 比特 ， 以 便于 以 1 个 字 节 的 方 
式 进行 存储 。 


全 


Ow 简单 地 说 ， 编 码 就 是 使 用 一 个 计算 机 能 够 识别 的 数字 来 代表 一 个 文字 ， 计 算 机 在 处 理 的 时 候 不 关心 具体 的 文字 ， 只 关心 文字 的 编码 ， 这 样 就 可 以 使 用 计算 的 方式 来 处 理 文字 了 。 


4.1.1 ASCll 字 符 集 和 编码 


在 所 有 的 字符 集中 ，ASCII 字 符 集 是 早期 计算 机 操作 系统 中 的 主要 字符 集 。 其 主要 包括 控制 字符 ( 回 车 键 、 退 格 、 换 行 键 等 ) 和 可 显示 字符 (英文 大 小 写字 符 、 阿 拉 伯 数字 和 西 文 符号 ) 。 而 ASCII 的 字 
符 编 码 看 起 来 如 图 4-1 所 示 。 


ASCll 字 符 集 最 大 的 缺点 就 是 只 能 显示 标准 的 26 个 拉丁 字母 、 阿 拉 伯 数字 和 英 式 标点 ， 当 需要 显示 外 来 语 (如 : café、élite) 时 就 无 能 为 力 了 ， 另 外 也 不 能 显示 东方 象形 文字 。 所 以 当今 主流 的 操作 系 
统 都 开始 使 用 Unicode 编 码 了 。 
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图 4-1 ASCII 字 符 代码 表 
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4.1.2 ”Unicode 字 符 集 及 UTF-8 编 码 
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其 实 ， 在 Unicode 编 码 流行 起 来 之 前 ， 很 多 


Ea 


家 为 了 计算 机 的 普及 都 付出 了 努力 ， 比 如 我 | 


定制 的 


Ea 


Ea 


等 。 为 了 使 原来 只 支持 英文 的 计算 机 也 支持 本 国 


的 


这 些 国家 和 地 区 都 做 出 了 贡献 。 不 过 | 


语言 ， 


就 是 Unicode 编 码 。 


前 文 所 说 的 
一 个 合法 的 UTF- 


几乎 已 经 只 使 


戎 着 多 国 


编码 仍然 是 ASCIl， 这 就 又 回 到 了 本 章 开 头 的 部 分 一 也 就 说 明了 为 什么 要 在 程序 文件 的 一 开始 增加 : 
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台湾 、 香 港 和 澳门 所 使 


的 Big5 繁 体 中 文 编码 ， 以 及 日 


一 种 统一 的 、 通 


的 可 


FF 


本 的 Shift JIS 编 码 


以 同时 编码 绝 大 多 数 语言 的 编码 被 发 明了 出 来 ， 


UTF-8 就 是 针对 Unicode 字 符 集 的 一 种 字符 编码 ，UTF-8 可 以 根据 不 同 的 符号 自动 选择 编码 的 长 短 ， 以 提高 Unicode 的 编码 效率 。 而 且 UTF-8 是 ASCII 的 一 个 超 集 ， 一 个 纯 ASCIl 字 符 串 ， 也 是 
8 字符 串 。 说 到 这 里 ， 可 能 有 些 读者 就 要 问 了 ， 既 然 有 UTF-8， 那 么 有 没有 UTF-16、UTF-32 呢 ? 答案 是 : 有 。 它 们 同样 都 是 针对 Unicode 字 符 集 进行 编码 ， 不 过 各 有 各 的 特点 ， 到 今天 我 们 


UTF-8 编 码 了 ， 所 以 大 家 也 不 用 关心 其 他 的 编码 了 。 不 过 可 能 读者 会 想不到 Python 是 一 个 相当 有 历史 的 语言 ， 在 当初 发 布 的 年 代 还 没有 Unicode 编 码 ， 所 以 Python 2.7[1] 到 现在 为 止 的 默认 


i EE 


这 样 一 行 注释 是 告诉 Python 解释 器 ， 这 个 文件 需要 以 UTF-8 的 编码 方式 解码 ， 这 样 才能 够 在 程序 中 使 


>>> ord ("a") 
97 


>>> 
>>> chr (97) 
ia' 


>>> u' 我 ' .encode ('utf-8') 
'\xe6\x88\x91' 
>>> 


>>> u' 我 ' .encode ('GBK') 
'\xce\xd2' 

>>> 

>>> ' 我 ' .encode ('utf-8') 


非 AsCll 字 符 ， 比 如 中 文字 符 : 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
UnicodeDecodeError: "ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128) 
>>> 


在 Python 中 ， 内 建 的 ord 函 数 可 以 打印 一 个 AsClI 字 符 的 AsClI 编 码 ; 反之 ,使 用 chr 也 可 以 将 一 个 ASCll 编 码 还 原 为 ASCIl 字 符 。 而 在 一 个 中 文字 符 ， 或 者 字符 串 前 面 增 加 一 个 小 写字 母 u 则 表示 这 是 
Unicode 字 符 集中 的 一 个 字符 。 直 接 在 Python shell 中 打印 则 可 以 查看 其 默认 的 Unicode 编 码 ， 而 使 用 字符 串 的 encode() 方 法 可 以 将 其 编码 为 Python 支 持 的 任意 字符 编码 ， 上 面 的 例子 中 还 展示 了 “我 ”的 
UTF-8 编 码 和 GBK 编 码 。 


过 


如 果 忘 记 了 在 中 文字 符 串 前 面 加 u， 那 么 会 发 生 什 么 情况 呢 ? 在 Python shell 中 会 直接 报 UnicodeDecodeError 的 错误 。 但 在 Python 脚本 文件 中 ， 因 为 已 经 在 文件 的 一 开始 增加 了 UTF-8 编 码 的 注释 行 ， 
所 以 即便 不 在 中 文字 符 串 前 增加 u， 程 序 也 可 以 正常 运行 。 


如 果 你 使 用 的 是 Windows 系 统 ， 而 不 是 Linux 或 Mac OS X 系 统 ， 那 么 很 多 由 系统 工具 (如 记事 本 ) 生成 的 文件 可 能 不 是 UTF-8 编 码 的 ， 而 是 GBK 编 码 。 如 果 读 取 Windows 中 的 文件 时 产生 了 乱码 ,可 
以 尝试 使 用 decode('GBK') 将 GBK 编 码 的 字符 串 转换 成 Unicode 编 码 的 字符 串 ， 就 像 下 面 的 这 样 : 


gbk_string.decode ("utf-8") 


[1] Python 3 就 不 再 需要 了 ， 因 为 Python 3 默认 使 用 UTF-8 编 码 。 


4.2 字符 串 操作 和 格式 化 


4.1 节 讲 了 字符 串 编码 ， 希 望 能 够 帮助 读者 在 遇 到 字符 串 的 麻烦 时 有 一 个 基本 的 解决 思路 。 在 数据 科学 中 ， 往 往 一 开始 的 第 一 步 就 是 清洗 数据 ， 在 对 结构 化 的 或 是 非 结构 化 的 文本 数据 进行 清洗 时 ， 总 是 
会 涉及 分 割 文 本 -提取 有 效 文 本 -合成 新 文本 的 流程 ， 本 节 就 将 讲解 关于 字符 串 的 操作 。 


4.2.1 字符 串 的 基本 操作 


对 于 从 文件 中 读 取 的 字符 串 ， 最 基本 的 操作 就 是 去 除 字符 串 前 后 的 空白 字符 ， 比 如 换行 符 \n” ， 为 了 实现 这 个 功能 ， 可 以 使 用 字符 串 方法 中 的 strip() 函 数 ， 这 个 函数 会 移 除 字符 串 两 侧 的 所 有 空白 
符 ， 如 下 所 示 : 


>>> ' abcde\n' .strip() 
'abcde!' 


下 面 这 几 个 例子 展示 的 是 如 何 使 用 Python 的 字符 串 方法 改变 字符 串 的 大 小 写 表 达 。capitalize() 函 数 可 以 使 字符 串 的 首 字母 大 写 ，lower() 则 使 全 部 字符 串 保持 小 写 ，title( 则 会 像 一 个 英文 标题 一 样 格式 
化 整个 字符 串 ， 即 将 每 个 单词 的 首 字母 大 写 ， 而 upper() 则 会 将 全 部 的 字母 转换 成 大 写字 母 : 


>>> "abcqe' .capitalize () 
"Rbcade' 

Dy 

>>> 'ABCDE' .lower () 
"abcqe' 

>>> 

>>>>>> 'abcde figh' .title() 
'Abcde Figh' 

>>> 

>>> "abcqe' .upper () 
'ABCDE'。 


下 面 的 例子 是 展示 Python 字符 串 方法 中 可 以 判断 字符 串 特性 的 几 个 具有 代表 性 的 方法 。 其 中 isalnum() 方 法 可 以 在 字符 串 中 包含 字母 或 数字 时 给 出 True 的 结果 ， 而 isdigit 则 会 在 字符 串 中 只 包含 数字 时 给 
出 True 的 结果 ， 至 于 startswith0 和 endswith()， 顾 名 思 义 就 是 字符 串 以 其 参数 为 开始 或 结尾 时 返回 true 值 : 


>>> 'abcde123' .isalnum() 
True 

> 

>>> "abcqe' .isdigit () 

False 

D> 

>>> ‘abcde' .startswith('ab') 


>>> "abcqe' .endswith('de') 


下 面 的 第 一 个 字符 串 方法 是 查找 “bc” 第 一 次 出 现 的 位 置 ， 而 第 二 个 方法 则 是 将 元 字符 串 的 “bc” 茜 换 成 “fg” ， 再 返回 新 生成 的 字符 串 : 


>>> "abcqe' .index('bc') 
1 


>>> 

>>> 'abcde' .replace('bc', 'fg') 
'afgde' 

>>> 


4.2.2 ”字符 串 分 割 


对 于 常见 的 逗号 分 隔 值 来 说， 可 以 使 用 split( 方 法 实现 分 割 ， 就 像 下 面 一 样 : 


DO BT 
| 


>>> 
2 
['1', '2,3,4,5,6,7,8'] 

>>> 


>>> '1,2,3,4,5,6,7,8'.split(',', 3) 
[A 2 3'e ‘diSr 6 7158"] 

>>> 

>>> '1,2,3,4,5,6,7,8'.rsplit(',', 1) 
['1,2,3,4,5,6,7', '8'] 


split 是 以 第 一 个 参数 为 分 割 符 ， 从 字符 串 的 左 侧 将 字符 串 切 割 成 一 个 字符 串 的 列表 ， 另 外 split 还 可 以 支持 第 二 个 参数 ， 这 个 参数 的 值 代表 切 到 第 几 个 分 割 符 为 止 。 紧 接着 的 两 个 例子 则 分 别 以 1 和 3 作为 
split 的 第 二 个 参数 ， 结 果 就 像 大 家 见 到 的 那样 。 要 注意 的 是 ，split 还 有 一 个 从 右 侧 开 始 切 分 的 版 本 ， 即 在 split 的 前 面 加 上 一 个 r， 写 作 rsplit()。 


4.2.3 字符 串 格式 化 


我 们 学 习 了 字符 串 的 分 割 ， 当 然 就 要 学 习 如 何 拼接 字符 串 ， 除 了 在 第 2 章 学 习 的 简单 地 使 用 加 法 运算 符 去 拼接 字符 串 以 外 ， 还 有 更 高 级 的 方法 。 Python 有 两 种 字符 串 格式 化 的 方式 ， 一 种 是 通 
过 “%”， 另 外 一 种 是 通过 字符 串 方法 format(。 在 日 常 使 有 中， 两 者 之 间 的 区 别 不 是 很 大 。 当 然 我 更 推荐 后 者 ， 因 为 Python 中 的 方法 可 以 有 序列 解 包 的 支持 ， 使 用 起 来 更 加 灵活 ， 下 面 会 采用 对 比 的 方式 


来 介绍 两 种 字符 串 格式 化 的 方法 : 


>>> name = "Jilu' 
>>> age = 27 
> 


>>> '{0} is {1} years old.'.format (name, age) 


'jilu is 27 years old.' 


>>> '%s is %d years old.' 当 (name, age) 


'jilu is 27 years old."' 

So 

>>> '{} is a boy.'.format (name) 
"jilu is a boy:” 

>>> '%s is a boy.' % name 
'jilu is a boy."' 

2 


>>> '{0:.3} is a decimal.'.format (1/3.0) 


10.333 is a decimal.' 


>>> '%.3f is a decimal.' % float(1/3.0) 


10.333333.3 is a decimal.' 
>>> 


>>> '{first} is as {second}.'.format (first=name, second="'magi') 


'jilu is as magi.' 

>>> '%s js as %s.' % (name, 'magi') 
'jilu is as magi.' 

> 


在 上 面 的 代码 中 ， 第 一 个 例子 是 让 name 和 age 按照 对 应 的 位 置 被 蔡 换 到 [0 和 {1} 上 ， 其 实 我 们 改变 0 和 1 的 顺序 就 能 够 调换 name 和 age 的 位 


， 而 后 面 使 用 %s[1 则 只 能 按照 参数 的 实际 位 置 进行 替换 。 


下 一 组 例子 中 { 中 并 没有 数字 ， 此 时 使 用 format( 方 法 与 % 的 功能 完全 相同 ， 第 三 组 例子 中 展示 了 两 种 字符 串 格式 化 的 方法 如 何 保留 浮 点 数 的 精度 。 最 后 一 组 例子 则 展示 了 format() 独 有 的 字符 串 格式 化 方 
法 ， 即 根据 关键 字 参 数 名 字 的 方式 进行 格式 化 。 


四 对 于 使 用 % 的 格式 化 方法 ，%s 需 要 使 用 字符 囊 进行 普 换 ，%d 需 要 使 用 整数 进行 替换 ，%f 需 要 使 用 浮 点 数 进行 替换 ， 而 %.3f 中 的 “.3” 


表明 使 用 什么 类 型 的 参数 。 


4.3 ”正则 表达 式 


则 代表 保留 几 位 小 数 。 相 比 之 下 使 用 format0 进 行 格式 化 则 不 必 在 人 中 


正则 表达 式 本 身 是 一 种 小 型 的 、 高 度 专业 化 的 语言 ， 在 任何 常见 的 语言 中 ， 只 要 这 门 语 言 能 够 处 理 字符 串 ， 就 都 应 当 包含 正则 表达 式 。 在 Python 中 正则 表达 式 是 通过 标准 库 re 实 现 的 。 所 谓 的 正则 表达 
式 ， 就 是 可 以 使 用 一 个 规则 来 表示 一 段 文本 ， 比 如 一 个 合法 的 邮箱 ， 或 者 一 个 正确 的 手机 号 码 应 该 具备 的 形式 和 结构 。 我 们 可 以 通过 正则 表达 式 从 一 段 很 长 的 文本 中 提取 出 想 要 的 模式 的 文本 ， 或 者 用 来 判 


断 某 个 文本 是 否 符合 某 种 规则 ， 这 些 功能 常 


4.3.1 正则 表达 式 入 门 


让 我 们 从 一 个 例子 开始 ， 这 样 可 以 容易 一 些 。 首 先 ， 获 取 一 个 文本 ， 打 开 任 意 一 个 网 页 ， 比 如 https://news.ycombinatorcom/， 右 击 网 页 空 


Ctrl+S) ， 将 网 页 保存 成 “ 仅 HTML”， 如 


于 数据 清洗 。 


处 并 选择 “存储 为 ” (或 者 同时 按 下 键盘 上 的 


网 


4-2 所 示 。 
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然后 我 们 就 会 得 到 一 个 HTML 文 件 ,使 


在 打开 HTML 文 件 之 后 ， 同 时 按 下 键盘 上 的 Ctrl+F 就 可 以 打开 一 个 查找 框 ， 就 像 图 


HackarNews.htm 
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站 


Sublime Text 打 开 之 后 ， 就 可 以 看 到 其 中 的 HTML 文 本 ， 如 


ta name="referrer" content="origin'"><nmet 
news.CSss?sNSsM102vObSj5t4rUes"> 


图 4-2 ”将 HTML 保 存 到 本 地 


图 4-3 所 示 。 


4-3 中 底部 的 查找 框 一 样 。 同 时 请 确保 查找 框 左 侧 的 正则 表达 式 功能 处 于 开启 状态 ， 如 图 4-4 所 示 。 


a name="viewport" content="width=device-width, initial-scale=1.0"><l 


ternate"” type="application/rsstxml" title="RSS" href="rss"> 


ipt ty ext/javascript"> 
function hide(id) { 

var el = document.getElementById(id); 

if (el) { el.style.visibility = ‘hidden'; } 
} 


function vote(node) { 
var v = node.id.split(/_/); 
var item = v[1]; 
hide('up_’ + item); 
hide('down_' + item); 
var ping = Inage(); 
e.href; 
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4-4 中 ， 一 个 点 号 和 星 号 组 成 的 按键 即 正则 表达 式 激活 的 开关 。 现 在 在 搜索 框 中 输入 “http” ， 就 会 查找 出 这 个 文本 文件 中 所 有 的 “http” 字 符 ， 并 以 一 个 白 
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图 4-3” 纯 文本 形式 的 HTML 


框 高 亮 地 显示 出 来 。 其 中 http 就 是 一 个 


最 简单 的 


正则 表达 式 ， 实 际 上 除了 一 些 被 称 为 “元 字符 ”的 字符 之 外 ， 大 多 数字 母 、 数 字 和 字符 都 会 与 它 自己 相 匹配 


这 里 有 一 个 完整 的 元 字符 列表 : 


图 4-4 Sublime Text 搜 索 框 示例 


人 


上 面 的 字符 并 不 会 和 它们 自身 相 匹 配 ， 而 是 有 别 的 含义 ， 比 如 当 我 们 在 搜索 框 中 只 输入 一 个 “.” 时 ， 你 会 发 现 它 可 以 匹配 任何 一 个 字符 ,而 不 是 点 符号 。 因 为 在 正则 表达 式 中 “.” 是 一 个 元 字符 ,代表 
任意 字符 。 想 要 精确 地 匹配 点 符号 ， 需 要 使 用 另外 一 个 元 字符 人 \”， 即 将 它 加 在 点 号 前 。 以 人 ”的 形式 再 搜索 一 次 ， 这 一 次 就 会 只 匹配 到 点 号 了 。 如 果 想 要 匹配 其 他 的 元 字符 也 需要 在 前 面 加 上 一 
个 从 。 而 人 则 是 作为 “ 转 义 符 ” 的 元 字符 的 ， 表 示 在 它 后 面 的 某 个 符号 失去 了 元 字符 的 功能 ， 或 者 是 某 个 字母 可 以 匹配 更 多 的 字符 。 比 如 下 面 的 这 个 列表 : 


\d 匹配 任何 十 进 制 数 ; 
AD 匹配 任何 非 
\s ”匹配 任何 空 
\S 匹配 任何 非 空白 
\w 匹配 任何 字母 数字 
AR 匹配 任何 非 字母 数字 字符 


nea 
^\t\n\r\f\v], 
[a-zA-20-9 ]。 

当 于 [^a-zA-20-9_]。 


举 个 例子 ，“^\d” 代 表 任意 十 进 制 数字 ， 其 效果 相当 于 “[0-9]” 的 正则 表达 式 。 我 们 可 以 在 Sublime Text 的 搜索 框 中 输入 这 两 个 正则 表达 式 ， 查 看 匹配 的 情况 。 不 过 现在 要 继续 介绍 “[ ”元 字符 一 它 
通常 代表 的 是 一 类 字符 ， 比 如 [123] 将 匹配 “a”、“b”、“c” 中 的 任意 一 个 字符 ， 也 可 以 使 用 “-” 表 示 区 间 ， 所 以 [1-3] 与 [123] 的 匹配 效果 是 一 样 的 。 


在 我 们 的 HTML 文 件 中 有 很 多 8 位 的 数字 ， 如 果 想 匹配 这 些 数字 可 以 使 用 下 面 的 正则 表达 式 : 


\d\ad\d\d\d\da\d\d 


不 过 这 既 不 优雅 也 容易 出 错 ， 这 时 表示 重复 功能 的 元 字符 就 派 上 用 场 了 。 第 一 个 要 讲 的 具有 重复 功能 的 元 字符 就 是 “*” ， 它 表示 匹配 前 面 一 个 字符 0 到 无 穷 多 次 。 举 个 例子 ， 正 则 表达 式 “1*1” 将 会 
配 “11”、“111”、“1111” 等 ， 中 间 有 多 少 个 “1” 都 无 所 谓 。 所 以 我 们 管 “*” 叫 作 贪 禁 的 匹配 。 另 外 一 个 表示 重复 的 元 字符 是 “+”， 表 示 匹 配 1 次 到 无 穷 多 次 。 此 外 ， 还 有 “? ”表示 匹配 0 次 到 1 
次 ， 最 复杂 的 表示 重复 的 元 字符 就 是 “{” ， 举 例 来 说 “{8}” 表示 前 面 的 字符 匹配 8 次 ，“{4 8}” 表示 前 面 的 字符 匹配 4 到 8 次 之 间 的 任意 次 数 都 是 可 以 的 。 前 面 的 那个 匹配 数字 8 次 的 例子 现在 可 以 使 用 下 再 
的 正则 表达 式 来 表达 : 


同 


\a{8} 


读者 可 以 尝试 使 用 “\d*”、 “\d+” 或 \d?” 来 匹配 文本 ， 不 过 你 肯定 会 发 现 这 几 种 方法 都 没有 ““^d{8}” 完 美 ， 它 们 总 是 会 匹配 更 多 或 更 少 的 字符 。 


如 果 在 仔细 地 观察 了 HTML 文 本 之 后 ， 想 把 其 中 的 网 址 全 部 提取 出 来 ， 以 用 作 后 续 的 处 理 ， 那 该 怎么 办 呢 ? 在 HTML 文 件 中 网 址 的 正则 表达 式 应 该 怎样 表达 呢 ? 首先， 可 以 尝试 查找 包含 “http” 的 字 
符 ， 如 果 你 使 用 本 书 附带 的 源 文件 就 会 得 到 32 个 匹配 的 结果 ， 如 果 你 是 自己 下 载 的 网 页 ， 请 记 住 你 的 结果 ， 后 文 会 有 使 用 。 我 们 会 发 现 大 多 数 的 网 址 都 包含 在 一 对 引号 中 以 http:// 开 头 ， 因 此 可 以 尝试 下 面 
这 个 正则 表达 式 : 


DEEP Yan 


这 个 正则 表达 式 会 匹配 一 对 引号 中 以 http:// 开 头 、 后 面 是 任意 字符 的 字符 串 ， 由 于 英文 不 区 分 正 引号 和 反 引 号 ， 所 以 可 使 用 非 贪 梦 匹 配 的 元 字符 “? ”来 表示 ， 它 会 在 一 个 引号 之 后 匹配 到 最 近 的 一 个 
引号 ， 且 不 会 再 匹配 更 多 。 从 结果 上 看 ， 我 们 确实 匹配 到 了 大 量 的 网 址 ， 不 过 似乎 数量 有 些 不 对 ， 只 匹配 到 了 20 个 ， 那 剩 下 的 12 个 去 哪里 了 ? 经 过 仔细 地 分 析 ， 可 以 发 现 原来 里 面 有 些 是 以 https:// 开 头 的 
网 址 。 现 在 要 加 上 一 个 表示 分 歧 条 件 的 元 字符 “|”， 参 考 下 面 的 正则 表达 式 : 


"http://.*2"|"https://.*?" 


其 中 “| ”表示 任意 一 组 正则 表达 式 匹 配 上 了 就 可 以 ， 如 果 有 多 个 规则 ， 那 么 可 以 使 用 多 个 “| ”分 隔 。 


最 后 一 个 要 讲 的 元 字符 是 “(”， 它 表示 分 组 。 假 设 我 们 要 匹配 一 些 IP， 下 面 来 看 一 个 典型 的 IP 一 192.168.0.1， 可 以 看 到 IP 是 由 4 组 “df{1,3}” 组 成 的 字符 串 ， 为 了 不 使 匹配 1P 的 正则 表达 式 写 成 下 面 的 
样子 : 


\d{1,3}\.\d{1,3}\.\d{1,31\.\d{1,3} 


可 以 使 用 “0” 进 行 分 组 ， 这 样 我 们 就 可 以 对 分 组 之 后 的 正则 表达 式 再 次 使 用 “人 了， 就 像 下 面 这 个 正则 表达 式 这 样 : 


(\a{1,3}\.) {3}\d{1,3} 


看 上 去 简洁 了 不 少 ， 而 且 更 不 容易 出 错 了 。 


除了 上 面 详细 讲解 的 几 个 元 字符 之 外 ， 还 有 另外 几 个 在 数据 处 理 中 不 太 常用 的 元 字符 ， 比 如 “^ ”表示 从 每 一 行 的 开始 进行 匹配 ; “$” 表示 匹配 到 行 尾 。 所 以 想 要 匹配 一 整 行 数据 可 以 使 用 “^.*” 这 
个 正则 表达 式 ， 不 过 在 使 用 Python 处 理 时 这 并 没有 什么 意义 。 我 们 可 以 使 用 Python 中 字符 串 方法 split("\n ) 来 对 行进 行 切 分 。 另 外 还 有 匹配 单个 单词 的 “b” ， 比 如 想 要 在 正常 文章 的 文本 中 匹 
配 “world” 这 个 单词 ， 可 以 使 用 “bworld\b” 这 个 正则 表达 式 ， 不 过 在 Python 中 只 需要 使 用 split(”) 对 空格 进行 切 分 就 可 以 了 。 还 有 反 义 匹 配 ，“[^X]” 正 则 表达 式 表示 除了 x 之 外 ， 其 他 字符 都 能 
配 ， 但 是 我 们 很 少 使 用 反 义 匹 配 ， 所 以 这 几 个 “元 字符 ”读者 只 要 稍微 了 解 即 可 。 下 面 就 来 讲解 如 何在 Python 中 使 用 正则 表达 式 。 


同 


4.3.2 在 Python 中 使 用 正则 表达 式 


要 在 Python 中 使 用 正则 表达 式 ， 需 要 导入 re 模块 : 


import re 


最 基本 的 一 个 步骤 就 是 创建 一 个 正则 表达 式 的 实例 : 


p= re.compile('"(https?://.*?)"') 


这 个 正则 表达 式 匹 配 的 模式 与 “"http://.*?"|"https://.*?"” 是 完全 相同 的 ， 只 不 过 是 一 个 更 加 简洁 的 方式 。 在 Python 中 创建 正则 表达 式 时 还 可 以 添加 其 他 的 参数 ， 比 如 : 


p= re.compile('"(https?://.*?)"', re.IGNORECASE) 


第 二 个 参数 代表 忽略 大 小 写 ， 其 中 re.IGNORECASE 也 可 以 简写 成 re.|， 这 个 参数 还 可 以 有 其 他 的 值 ， 这 些 值 的 一 个 列表 如 表 4-1 所 示 。 


表 4-1 te 模块 在 编译 正则 表达 式 时 可 以 使 用 的 参数 


标志 ， 简 写 含 》 
DOTALL, S 使 “.” 匹 配 包括 换行 在 内 的 所 有 字符 
IGNORECASE, I 使 匹配 对 大 小 写 不 敏感 
LOCALE LT 做 本 地 化 识别 匹配 
MULTILINE, M 多 行 匹配 ,影响 “^” 和 “$” 
VERBOSE, X 能 够 使 用 re 模块 的 verbose 状态 ， 使 之 被 组 织 得 更 清晰 易 懂 


通常 我 们 只 是 用 re.IJGNORECASE， 对 于 需要 更 高 的 正则 表达 式 用 法 的 读者 可 以 自行 查找 其 他 的 资料 。 


现在 我 们 可 以 给 出 一 个 完整 的 例子 了 ， 见 代码 清单 4-1。 


代码 清单 4-1: re_tutorial.py 


# ! /usr/bin/python 
# ~*~ coding; utf-8 ~*— 


from __ future _ import print function 
import re 


p= re.compile('"(https?://.*?)"', re.I) 


with open('/Users/jilu/Downloads/HackerNews.htm', 'r') as fr: 
doc = fr.read() 


for i in p.findall (doc): 
print (i) 


上 面 的 代码 表示 使 用 正则 表达 式 对 象 的 findall0 方 法 将 符合 模式 的 全 部 结果 都 查找 出 来 ， 然 后 打印 ， 其 运行 结果 如 下 : 


http://www.ycombinator.com 
http://www.latimes.com/world/middleeast/la-fg-cia-pentagon-isis-20160327-story.html 
http://www.bloomberg.com/news/articles/2016-03-28/u-s-drops-california-case-against-apple-after-accessing-iphone 
https://wwuw.youtube.com/watch?v=45X4VP8CGtk 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


这 里 省 略 了 大 部 分 的 结果 ， 以 减少 篇 幅 。 不 过 从 结果 上 来 看 ， 我 们 达到 了 想 要 的 效果 。 除 了 findall() 方 法 ， 正 则 表达 式 对 象 还 有 几 个 方法 可 以 使 用 ， 具 体 如 表 4-2 所 示 。 


表 4-2 ”te 模块 中 常用 的 匹配 字符 串 方法 


方法 /属性 作用 


match() 决定 RE 是 否 在 字符 串 刚 开始 的 位 置 匹 配 
search() 扫描 字符 串 ， 找 到 RE 匹配 的 位 置 


findall() 找到 RE 匹配 的 所 有 子 串 ， 并 把 它们 作为 一 个 列表 返回 
finditer() 找到 RE 匹配 的 所 有 子 串 ， 并 把 它们 作为 一 个 迭代 器 返回 


试 试 这 些 方法 ， 很 快 就 能 理解 它们 的 功能 ， 比 如 : 


>>> import re 
>>> p = re.compile('[a-z]+') 
>>> m = p.match('tutorial') 
>>> m.group()”# 匹配 到 的 字符 串 
"tutorial'" 


>>> m.start() ”# 匹配 到 的 字符 串 开始 的 位 置 

0 

>>> m.end() 匹配 到 的 字符 串 结束 的 位 置 

>>> m.span() ”# 返回 一 个 元 组 包含 匹配 到 的 字符 串 〈 开 始 ， 结 束 ) 的 位 置 


(0, 8) 
>>> 


埋 


search0 与 match0 的 功能 类 似 ，finditer0 的 功能 与 findall0 的 功能 类 似 ， 只 不 过 finditer0 只 能 挝 代 取 出 结果 。 


第 5 章 ”容器 和 collections 


到 目前 为 止 ， 我 们 所 使 用 的 数据 类 型 都 是 比较 简单 的 类 型 ， 比 如 : 数字 、 浮 点 型 、 字 符 串 等 ， 这 种 类 型 被 称 作 标 量 类 型 。 Python 中 还 有 一 种 类 型 ， 它 们 有 可 以 访问 的 内 部 结构 ， 可 以 装 下 其 他 类 型 对 象 
的 类 型 ， 我 们 将 其 称 作 非 标量 类 型 ， 而 这 些 类 型 的 对 象 称 为 容器 。 在 Python 中 数据 的 组 合 几 乎 没有 任何 限制 ， 甚 至 还 可 以 将 一 个 容器 放 在 另外 一 个 容器 中 ， 不 同 的 类 型 或 容器 也 可 以 混合 放 入 另外 一 个 容器 


中 。 通 常 可 以 使 用 下 标 或 键 对 容器 中 的 对 象 进行 访问 。 


本 章 会 介绍 4 类 基本 的 容器 类 型 ， 分 别 是 : 元 组 


(tuple) ， 和 字符 串 很 相似 ， 是 不 可 变 类 型 ;另外 三 个 是 列表 (list) 、 字 典 (dict) 和 集合 (set) ， 它 们 是 可 变 类 型 ， 也 是 比较 常用 的 类 型 。 除 此 之 外 


还 会 介绍 Python 标准 库 模 块 collections 中 的 几 个 常 


类 型 : namedtuple、Counter、defaultdict、OrderedDict。 


5.1 元 组 


元 组 与 字符 串 一样 是 一 个 有 序 的 序列 ， 并 且 一 旦 生成 ， 就 不 可 以 改变 其 中 的 内 容 了 ， 在 Python 中 元 组 也 是 为 数 不 多 的 不 可 变 对 象 。 只 不 过 元 组 中 的 对 象 可 以 是 任意 类 型 ， 也 可 以 是 不 同类 型 的 混合 。 


元 组 在 声明 或 定义 时 使 用 圆 括 号 ， 并 且 使 用 逗号 进行 分 隔 ， 比 如 : 


Dy tl = i 

>>> t1 

(li 275 革 

25> 

> t2 = (a 4; True) 
>>> 七 2 

('a', 4, True) 

Dy 


很 多 人 在 看 过 元 组 的 定义 方式 之 后 ， 都 会 不 假 思索 地 认为 只 包含 一 个 元 素 的 元 组 应 该 写作 (1)， 但 实际 上 这 是 不 对 的 ， 括 号 会 作为 表达 式 被 求 值 ， 在 此 处 这 个 括号 不 是 必需 的 ， 增 加 这 个 括号 只 不 过 是 为 
了 避免 歧义 。 最 终 的 结果 只 能 是 1， 而 不 是 包含 1 的 元 组 。 如 果 我 们 想 要 构建 只 包含 一 个 值 的 元 组 ， 需 要 在 右 括号 前 增加 一 个 逗号 ， 写作 “1”。 


元 组 的 连接 与 切片 、 字 符 串 的 连接 基本 一 致 (， 第 2 章 我 们 已 经 学 过 关于 字符 串 的 操作 了 ， 这 里 再 介绍 一 遍 元 组 的 版 本 : 


S33 t1 = (1, 2 3 

>>> 七 1 

(1, 2, 3) 

>>> t2 = ('a', 4, True) 
Sy 

Sy tl 让 

(ls 2 Tie 
Sy tHE 

2 

>> t211:2] 

(4,) 

> 


我 们 还 可 以 将 一 个 元 组 放 入 另外 一 个 元 组 中 ， 就 像 下 面 这 样 : 


om t3= (li, t2, by 

> t3 

(1, ('a', 4, True), 'b') 

Py 

> ta = (tl; e's t3) 

>>> t4 

((1, 2, 3), 'c', (1, ('a', 4, True), 'b')) 
2% 


前 面 几 章 已 经 使 用 过 好 几 次 Python 的 序列 解 包 ， 事 实 上 ， 元 组 也 可 以 使 用 序列 解 包 ， 或 者 称 为 多 重复 值 ， 示 例如 下 : 


Do ar by © = 人 ta, 'b') 
>>> a 

1 

>>> b 

('a', 4, True) 

2 家 

‘pb! 

>>> 


另外 ，Python 中 序列 类 型 的 对 象 都 实现 了 Python 的 迭代 器 协议 ,支持 for 循 环 ， 示 例如 下 : 


>>> for item in t4: 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


(1, 2, 3) 

c 

(lr Cas 4 True}r hb') 
>>> 


Python 中 的 for 循 环 基本 上 是 为 序列 类 型 而 设计 的 ， 用 于 遍历 序列 类 型 中 的 元 素 ， 并 且 在 达到 夫 代 尾 端 的 时 候 自动 停止 。 


四 实际 上 Python 中 大 多 数 序列 类 型 的 操作 都 很 类 似 。 


5.2 列表 


类 似 于 元 组 和 字符 串 ， 列 表 也 是 序列 类 型 的 对 象 ， 每 个 值 可 以 由 一 个 下 标 取 出 。 在 表达 上 ， 不 同 之 处 在 于 列表 是 使 用 方 括号 声明 的 ， 举 例 来 说 : 


>>> a = [1, 2, 3] 
>>> a[2] 


PP 


print (item) 


虽然 看 起 来 列表 也 没有 什么 特别 的 ， 不 过 列表 却 是 我 们 最 常用 的 序列 型 数据 结构 ， 因 为 列表 有 一 个 重要 的 特性 一 可 变性 ， 列 表 中 某 个 特定 位 置 的 值 可 以 原 地 更 改 ， 列 表 的 长 度 也 可 以 随意 改变 。 而 我 们 
之 前 学 过 的 数据 类 型 ， 包 括 元 组 、 整 数 、 浮 点 数 、 字 符 串 等 都 是 不 可 变 类 型 。 通 过 下 面 的 代码 可 以 理解 列表 的 可 变性 : 


Sx 11 = [lr 73] 
> 11 
lp 蕊 ;3 


>>> 11[2] = True 
>>> 11 
1 2; Truel 


>>> 11.append ('a') 
>3% 11 
1, 2, True, 'a'] 


>>> 11.insert (0, 'abc') 
>>> 11 
taboti Tr 2 Truss "a'l 


> 局] 
>>> 11.append (12) 


>>> 11 

Tr 2 Truey B's ari hh") 
>>> 12[0] = False 

>>> 11 

1, 2, True, 'a', [False, 'b']] 
>>> 


上 面 的 代码 先 定义 了 列表 |1， 然 后 使 用 下 标的 方式 修改 列表 |1 中 下 标 为 2 的 值 为 True， 实 际 上 这 相当 于 我 们 为 列表 |1 下 标 为 2 的 位 置 重 新 赋 了 值 (还 记得 Python 中 赋值 传递 的 是 引用 ， 而 不 是 实际 的 值 了 
么 ?后 面 会 举例 详细 讲解 ) 。 我 们 还 可 以 使 用 append0 方 法 在 列表 |1 的 末尾 追加 一 个 “a” 。 接 下 来 使 用 insert() 方 法 为 在 列表 中 下 标 为 0 的 位 置 前 面 插入 一 个 值 “abc”，insert() 方 法 需要 两 个 参数 ， 第 一 个 
参数 表示 在 下 标 为 这 个 值 的 前 一 个 位 置 插入 新 值 ， 第 二 个 参数 就 是 需要 插入 的 值 了 。 而 且 append0 和 insert() 这 两 个 方法 是 没有 返回 值 的 ， 因 为 这 两 个 方法 会 原 地 修改 原来 的 列表 [1]， 没 有 返回 值 是 为 了 防止 
户 误 以 为 原来 的 值 没有 被 修改 。 列 表 的 pop() 方 法 可 以 删除 列表 中 某 个 特定 下 标的 值 ， 与 前 面 的 方法 不 同 ，pop() 方 法 是 有 返回 值 的 ， 返 回 值 是 被 删除 的 值 ， 而 不 是 新 的 列表 (因为 这 同样 是 有 副作用 的 函 
数 ) 。 


列表 还 可 以 使 用 一 些 运算 符 进行 计算 ， 比 如 : 


print (c) 


print (a * 3) 


上 面 的 代码 运行 的 结果 如 下 : 


| 
Lb ‘are hry 23] 
rb', var, hd ‘br, ral, hd bo ‘a', th', 'd'] 


两 个 列表 可 以 使 用 “+” 运 算 符 进行 拼接 和 内， 并 且 返 回 一 个 新 的 列表 ， 这 与 字符 串 的 加 法 是 一 样 的 。 除 了 这 种 方式 之 外 ， 我 们 还 可 以 使 用 列表 的 extend() 方 法 ， 将 一 个 列表 中 的 每 一 个 值 都 追加 到 另外 一 
个 列表 的 尾部 ， 最 终 所 得 到 的 结果 与 列表 加 法 类 似 ， 只 不 过 与 append() 方 法 一 样 ，extend() 方 法 也 是 原 地 修改 列表 ， 并 且 没有 返回 值 。 


四 这 种 方法 称 为 有 “副作用 ”的 方法 。 
四 ] 元 组 也 可 以 ， 但 元 组 没有 apbpend0 和 extend0 方 法 。 


5.2.1 引用 传递 


还 记得 前 面 说 过 Python 中 的 赋值 都 是 传递 引用 [的 么 ? 假设 定义 了 I2 是 一 个 新 的 列表 ， 然 后 将 2 添加 到 11 中 ， 数 据 的 引用 结构 就 如 图 5-1 所 示 的 一 样 。 那 么 ， 当 我 们 将 I2 中 的 值 从 “a” 修改 为 False 
时 ,11 中 的 值 也 发 生 改 变 了 。 


False b 


图 5-1 Python 对 象 引用 示意 图 


因为 Python 赋值 只 是 传递 引用 ， 所 以 当 我 们 想 要 复制 整个 列表 时 是 不 能 直接 赋值 的 ， 可 以 考虑 下 面 的 这 个 例子 : 


>>> a[1] = True 
>>>b 

[1, True, 3] 
>>> a 

[1, True, 3] 
>>> 


如 大 家 所 料 ， 在 改变 列表 a 中 的 某 个 值 时 ，b 也 改变 了 ， 如 下 : 


>>> a = [1, 2, 3] 
>>> © = a[:] 

>>> 

>>> a[0] = True 
Do 己 

| 

>>> 

>>> b= [a, 4, 5 
>>> b 
[True，2，3]，4，5] 
>>> c = b[:] 

>>> a[2] = False 
> 己 

[True, 2, False], 4, 5] 
be 
>>> from copy import deepcopy 
>>> d = deepcopy (c) 
>>> a[1] = "a' 
>>>d 

[True, 2, False], 4, 5] 
>>> 


我 们 可 以 使 用 “切片 克隆 ” (a[]) 的 方式 对 一 个 列表 进行 “ 浅 拷贝 ”。， 浅 拷贝 完成 之 后 ， 如 若 修 改 a[0]， 则 c 不 会 被 一 同 修改 了 。 不 过 仍 要 注意 的 是 ， 列 表 中 谋 套 的 其 他 数据 结构 还 是 以 引用 状态 存在 
比如 定义 的 b 列 表 被 浅 拷 贝 给 c 之 后 ， 修 改 a 仍然 会 导致 的 改变 ， 这 时 可 使 用 标准 库 模 块 copy 中 的 deepcopy 来 递归 复制 c 中 所 有 的 元 素 给 d， 这 样 一 来 ， 再 修改 任何 a、b、c 中 的 值 时 都 不 会 影响 d 的 值 


的 
了 。 


四 也 就 是 说 ， 在 Python 中 赋值 只 是 告诉 这 个 变量 去 哪里 能 找到 真正 的 值 ， 而 并 不 是 给 这 个 变量 建立 一 个 新 的 值 。 


5.2.2 ”列表 解析 式 


Python 中 的 列表 除了 5.2 节 中 所 讲 的 一 种 构造 方式 以 外 ， 还 有 另外 一 种 构造 方式 ， 叫 作 列 表 解 析 式 ， 这 是 一 种 能 够 将 一 个 函数 作用 到 整个 列表 中 每 一 个 元 素 上 的 方式 ， 并 且 它 会 将 结果 构造 成 一 个 新 的 
列表 返回 ， 比 如 ， 生 成 一 个 偶数 的 数列 ， 可 采用 如 下 代码 : 


>>> [x*2 for x in range(1，8)] 
[2 4, 858 8, 10, 12, 14] 
om 


就 像 普通 的 for 循 环 一 样 ， 我 们 在 列表 中 的 开始 部 分 调用 了 一 个 函数 ， 让 它 使 用 列表 [1] 中 的 每 个 元 素 作为 变量 。 有 的 时 候 ， 可 能 会 看 到 有 程序 员 会 使 用 map( 函 数 代 蔡 列表 解析 的 功能 ， 但 这 么 做 并 不 是 
最 好 的 选择 ， 还 是 推荐 使 用 列表 解析 ， 因 为 这 样 代码 会 更 加 清晰 。 


四 希望 读者 还 记得 range(1,8) 会 生成 列表 [1, 2,3,4,5,6,7]。 


5.3 字典 


Python 中 的 字典 类 型 在 其 他 语言 中 被 称 为 散 列表 ， 整 个 字典 是 由 key:value 对 通过 花 括号 组 成 的 无 序 结构 ， 我 们 可 以 通过 Key 方便 地 获取 对 应 的 value， 比 如 : 


1 
>>> d.get ("b") 
2 


yy> 


除了 直接 定义 一 个 字典 之 外 ， 还 有 另外 两 种 方式 可 以 定义 一 个 字典 ， 一 是 增 量 构建 ， 二 是 dict() 函 数 构建 ， 下 | 


d= 1{} 

for x in ["b", "ar "ho wd"]: 
d[x] = 1 

print (d) 


tuple list = zip(["b", “a", "hn "d"], [1]*4) 
d= dict(tuple list) 
print (gd) 


让 我 们 一 个 一 个 地 来 ， 示 例 代 码 如 下 : 


运行 上 面 的 代码 ， 输 出 的 结果 是 : 


两 种 方式 打印 的 值 完全 相同 ， 上 面 第 一 个 例子 直接 为 字典 的 某 一 个 键 进行 了 赋值 ， 因 此 可 以 增 量 地 构建 字典 [1]。 第 二 个 例子 通过 给 dict0 函 数 传 入 一 个 由 键 值 对 元 组 组 成 的 列表 来 构建 字典 ， 其 中 zip0 函 


数 可 以 将 两 个 或 多 个 列表 按照 对 应 项 合并 成 元 组 的 列表 ， 比 如 上 面 tuple_list 的 打印 值 就 是 : 


[('b', 1), ('a', 1), 


('h', 1), ('d', 1)] 


需要 注意 的 是 ， 如 果 两 个 列表 的 长 度 不 同 ， 那 么 该 函数 会 按照 短 的 列表 去 截取 长 的 列表 ， 并 不 会 有 任何 提示 ， 在 使 


时 需要 小 心 不 要 丢失 数据 。 


与 列表 类 似 ， 我 们 可 以 通过 方 括号 的 表达 式 获取 字典 中 的 值 ， 只 不 过 这 次 不 再 使 


下 标 内 ， 而 是 直接 使 


key 来 获取 其 中 的 值 。 另 外 字典 也 是 可 以 迭代 的 结构 ， 对 一 个 字典 迭代 实际 上 也 就 是 对 字典 的 


key 进 行 迭代 ， 示 例如 下 : 


>>> for k in d: 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


a 
b 
>>> for k in d: 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


[| 
('b’, 2) 
>>> for k, Vv in d.items(): 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


| 

("br 2) 

>>> d.keys () 
[ra'， 'b'] 
>>> d.values () 
[1, 2] 

> 


print (k) 


print (k, d[k]) 


print (k, v) 


除了 通过 对 字典 的 key 进 行 迭代 ， 还 可 以 使 用 字典 的 items() 方 法 ， 同 时 对 key 和 value 进 行 迭代 。 而 且 如 果 想 要 列 出 全 部 的 字典 键 和 字典 值 ， 还 可 以 使 用 字典 的 keys0 方 法 和 values0 方 法 。 在 数据 科学 


中 ,字典 是 一 种 非常 关键 的 数据 结构 ， 其 在 每 个 环节 都 有 实际 的 应 用 ， 比 如 将 一 段 文本 中 的 英文 月 份 翻译 为 数字 表达 则 为 : 


>> monthNumbers = {"Jan": 1，"Feb": 2, "Mar": 3, "Apr": 4, "May": 5} 
>>> print ("我 的 生日 是 在 {May} 月 " .format (**monthNumbers) ) 
我 的 生日 是 在 5 月 


>>> 


或 者 存储 一 段 复杂 的 数据 结构 : 


全 到 党 


"auery" : { 
"filtered" : { 


" { 
"uid": 2065494037 


比如 我 们 想 要 获取 match_all 这 个 字典 的 内 容 时 ， 可 以 使 用 下 面 这 样 的 链 式 调用 : 


d.get ("query"，{}) .get("filtered"，{]}) .get("query"，{}) .get("match all") 


字典 的 get 方 法 中 的 第 一 个 参数 是 需要 获取 的 key， 第 二 个 参数 是 如 果 Kkey 不 存在 所 返回 的 默认 值 ， 那 么 在 链 式 调用 时 ， 为 了 防止 某 个 key 不 存在 ， 可 将 所 有 中 间 值 的 默认 返回 值 都 设 为 空 字典 ， 这 样 获取 
值 时 就 不 容易 出 错 了 。 另 外 字典 是 可 变 类 型 的 对 象 ， 所 以 可 以 修改 、 增 加 或 删除 键 值 对 。 想 要 修改 、 增 加 或 删除 键 值 对 也 是 非常 简单 的 ， 就 像 下 面 这 样 : 


I Te 0 
>>> d.pop ("b") 

各 

>>> d 


{a's Troes wy 3 
> 


即 只 需要 进行 一 个 复制 操作 d[keylj=val 即 可 ， 如 果 key 已 经 存在 就 用 新 的 值 覆盖 旧 的 值 ， 如 果 不 存 在 就 创建 一 个 新 的 key， 删 除 也 只 需要 使 用 字典 的 pop() 方 法 。 另 外 ， 要 知道 ， 


字典 是 不 支持 加 法 操作 


的 ， 如 果 要 合并 两 个 字典 ， 则 要 使 用 字典 的 update() 方 法 。 需 要 注意 的 是 ， 如 果 update() 方 法 的 参数 中 有 重复 的 key， 那 么 结果 的 字典 中 相应 的 key 值 会 被 参数 中 这 个 key 的 值 所 覆盖 ， 示 例如 下 : 


{ra L007 Ta es 3 


更 为 方便 的 是 ， 实 际 上 字典 的 键 可 以 是 任何 不 可 变 的 类 型 ， 比 如 前 面 刚刚 用 到 的 字符 串 和 整数 类 型 B]， 不 知道 读者 是 否 还 记得 本 章 一 开篇 就 介绍 的 元 组 类 型 ， 它 也 是 一 种 不 可 变 的 类 型 ， 所 以 Python 中 
的 字典 实际 上 是 可 以 这 样 定义 的 : 


>>> d3 = {("name", "age"): 10, ("sex", "location"): 20} 
>>> 93 

{('sex', 'location'): 20, ('name', 'age'): 10} 

>>> 


在 使 用 Python 进行 统计 编程 时 ， 这 也 是 非 重 要 的 一 个 功能 ， 我 们 可 以 用 这 个 功能 模拟 group by 的 效果 。 


四 因为 字典 是 可 变 的 数据 结构 。 
D] 因为 字典 是 无 序 的 结构 ， 实 际 上 也 是 没有 下 标 。 
[3] 还 记得 Python 中 的 字符 串 和 整数 是 不 可 变 类 型 么 ? 


5.4 collections 


collections 是 Python 标准 库 的 一 部 分 ， 可 以 通过 : 


import collections 


来 使 用 这 个 标准 库 。 这 个 库 中 定义 了 几 个 方便 的 数据 结构 ， 可 以 极 大 地 提高 处 理 数据 时 的 效率 。 


5.4.1 namedtuple 


namedtuple 有 一 个 好 听 的 中 文 名 字 ， 叫 作 “ 具 名 元 组 ” ， 代 表 这 是 一 个 每 个 值 都 有 名 字 的 元 组 ， 比 如 有 如 下 这 样 一 个 元 组 : 


t= ("jilu', '27', 'Beijing') 


在 使 用 这 个 元 组 时 ， 我 不 得 不 使 用 下 标 来 取 值 ， 比 如 取 我 的 名 字 时 使 用 t[0]， 这 样 不 仅 麻 烦 ， 而 且 还 增加 了 记忆 负担 。 那 么 给 每 个 值 都 起 一 个 名 字 ， 取 值 的 时 候 不 就 方便 了 么 ”因此 ， 也 就 有 了 字典 这 个 
数据 结构 ， 就 像 下 面 这 样 : 


>>> kt = ("name", "age", "loc") 

>>> d4 = dict (zip (kt, t)) 

>>> d4 

{'loc': 'Beijing', '‘'age'; '27', ‘name': 'jilu'} 
p> 


这 里 用 的 是 另外 一 种 定义 字典 的 方式 ， 该 方法 结合 使 用 了 zip0 和 dict0 这 两 个 方法 ， 即 将 一 个 keys 的 元 组 与 一 个 values 的 元 组 结合 成 一 个 字典 。 至 于 zip 的 功能 ,读者 不 妨 自己 尝试 一 下 。 现 在 取 我 的 名 
字 时 就 可 以 通过 d4["name"] 或 d4("name") 来 取得 了 。 不 过 这 样 还 是 很 麻烦 ， 因 为 要 打 一 对 括号 和 引号 ， 而 且 实 际 上 Python 字 典 存储 数据 的 空间 利用 率 只 有 一 半 ， 那 么 有 没有 更 好 的 方法 呢 ? 有 ， 那 就 是 具 
名 元 组 ， 可 以 通过 定义 一 个 具名 元 组 来 实现 ， 示 例如 下 : 


>>> from collections import namedtuple 


>>> nt = namedtuple('nt', 'name age loc') 
>>> ntl = nt ('jilu', '27', 'Beijing') 
>>> nt1l 


nt (name='jilu', age='27', loc='Beijing') 
>>> ntl.name 

a 

>>> 


在 定义 具名 元 组 时 ，namedtuple 的 第 一 个 参数 是 元 组 的 名 字 ， 它 的 一 半 与 需要 赋值 的 变量 一 致 ， 这 里 都 是 “nt”。 第 二 个 参数 是 与 要 定义 的 元 组 结构 一 一 对 应 的 key 值 ， 比 如 第 一 个 是 name 所 对 应 的 
jilu 这 个 值 。 在 经 过 这 样 一 一定 义 之 后 ， 就 可 以 通过 点 操作 符 来 获取 我 们 想 要 的 key 值 了 ， 比 如 这 里 的 nt1.name。 


54.2 Counter 


Counter 是 一 个 累加 器 ， 可 以 用 来 做 经 典 的 word count， 比 如 : 


>>> doc = """Just when you thought it was safe to go to the deepest part of the ocean..it isn't. It's really hard, don't go 
there. But if you did get to Challenger Deep in the Mariana Trench, thought to be one of the deepest parts of the ocean, wh 
at you heard might scare your waterproof socks off.""" 

>>> 

>>> word list = doc.split() 

>>> from collections import Counter 

>>> cc = Counter (word list) 

Sx on 

Counter ({'the': 5, 'to': 4, 'you': 3, 'of': 3, 'go': 2, 'deepest': 2, 'thought': 2, 'it': 1, 'socks': 1, 'It\xe2\x80\x99s': 1, http://www.hzcourse.com/resource/readBook?path=/c 
bs 

>>> for k，V in cc.most common(): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (k, v) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/,.. 

('the', 5) 


('go', 2) 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


> 


可 以 看 到 ， 一 个 Counter 对 象 与 字典 颇 为 相似 ， 实 际 上 Counter 就 是 字典 类 型 的 一 个 子 类 [1] (为 了 节约 篇 幅 ，cc 和 
词 ， 然 后 将 包含 全 部 单词 的 列表 作为 Counter 的 参数 ， 最 终 通过 for 循 环 打印 Counter 对 象 most common() 方 法 的 返 
排序 ， 之 后 再 将 结果 进行 输出 。 下 面 的 代码 是 不 使 用 Counter 的 版 本 ， 读 者 可 以 自行 对 比 一 下 代码 的 简洁 程度 : 


后 面 的 循环 打印 只 截取 了 一 部 分 结果 ) 。 我 们 先 用 split() 方 法 将 原始 的 英文 文本 进行 分 


回 


值 ， 这 个 方法 类 似 于 字典 的 items 方 法 ， 只 不 过 它 会 按照 每 个 单词 出 现 次 数 的 多 少 进行 


>>> cc = {} 
>>> for WwW in doc.split(): 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... cc[w] += 1 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... else: 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


>>> for k, Vv in sorted(cc.items(), key=lambda x: -x[1]): 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


print (k, v) 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


('the', 5) 
bo 4) 


无 论 是 创建 cc 还 是 按照 单词 出 现 的 数量 打印 ， 结 果 都 要 复杂 难 懂 一 些 。 


四 在 面向 对 象 的 概念 中 子 类 通常 会 继承 父 类 的 一 些 功能 和 特性 ， 还 会 延伸 出 一 些 父 类 没有 的 特殊 功能 或 特征 。 


5.4.3 defaultdict 


在 defaultdict 中 ， 可 以 为 一 个 字典 的 值 设 定 一 个 默认 值 ， 比 如 当 默 认 值 为 空 列表 时 : 


>>> from collections import defaultdict 
>>> cl = defaultdict (list) 
>>> cl['key'] 


[] 


>>> cl['key'] .append (1) 

>>> cl['key'] .append (2) 

>>> cl['key'] .append (3) 

>>> cl['keyl1'] .append (4) 

Do 可 

defaultdict (<type 'list'>, {'keyl': [4], 'key': [1, 2, 3]}) 
>>> 

其 实 


5.4.4 OrderedDict 


与 其 等 效 的 Python 代码 也 并 不 算 太 复杂 ， 在 5.4.2 节 中 已 经 见 过 了 模拟 Counter 的 代码 ， 与 之 类 似 ， 只 要 判断 某 个 键 值 是 否 存在 ， 如 果 不 存在 则 赋值 一 个 默认 值 ， 这 样 也 可 以 实现 相应 的 功能 。 


通常 情况 下 ，Python 的 字典 是 无 序 的 散 列表 ， 不 过 有 些 时 候 我 们 希望 保留 数据 被 添加 进 字典 的 顺序 ， 这 样 就 可 以 让 我 们 在 之 后 迭代 的 时 候 还 原 原 来 的 顺序 ， 这 个 时 候 就 需要 OrderedDict 这 个 数据 结构 


了 。 现 在 ， 使 用 这 个 数据 结构 的 方式 共有 两 种 ， 第 一 种 是 按 顺 序 添 加 : 


时 

cc = OrderedDict () 

for x in ["b", “a, "h", wd"]: 
ce[x] = 1 
d[x] = 1 


for x in range (len(d)): 
print (d.keys() [x], cc.keys() [x]) 


运行 的 结果 如 下 : 


QUTp 
[ee 


上 面 的 结果 中 第 一 列 是 普通 的 字典 ， 第 二 列 是 有 序 字典 ， 可 以 看 到 第 二 列 的 顺序 没有 改变 。 除 了 这 种 方式 之 外 ,与 dict() 函 数 一 样 ，OrderedDict 也 接受 一 个 元 组 组 成 的 序列 作为 参数 ， 并 且 保持 元 组 的 


顺序 ， 示 例如 下 : 


tuple list 二 

print (tuple list) 

for kK; in OrderedDict (tuple list) .items(): 
print (k, wv) 


其 运行 结果 如 下 : 


[o> 
FF 


可 以 看 到 这 里 的 结果 顺序 与 创建 字典 时 的 顺序 一 致 ， 这 就 是 使 用 OrderedDict 带 来 的 额外 好 处 。 


第 6 章 “Python 标准 库 简介 


实 上 , 前 


面 的 章节 中 已 经 接触 过 一 些 Python 标 准 库 了 ， 比 如 第 5 章 提 到 的 collections 模 块 不 仅 提供 了 一 些 常 
力 。Python 官 方 提 供 了 300 多 个 标准 库 模块 ， 想 要 在 一 章 里 详尽 地 描述 所 有 模块 是 不 可 能 的 ， 本 章 将 选择 介绍 一 些 常 F 


的 数据 结构 ， 还 提供 了 复杂 的 数据 结构 ，csv 模 块 则 提供 了 Python CSV 文 件 处 理 的 能 
的 模块 。 笔 者 将 这 些 模块 大 致 分 为 如 下 类 型 : 数据 处 理 相关 的 模块 、 操 作 系统 相关 的 


模块 、 编 程 相关 的 模块 及 网 络 相关 的 模块 。 本 书 是 介绍 Python 数据 科学 工 


的 书籍 ， 操 作 系统 、 网 络 及 编程 的 技巧 不 会 过 多 涉及 ， 所 以 本 章 将 重点 介绍 数据 处 理 相关 的 模块 。 


6.1 math 模块 


想 要 进行 科学 计算 ，math 模 块 是 必 不 可 少 的 ， 这 个 模块 实现 了 很 多 复合 IEEE 标 准 的 功能 ， 比 如 浮 点 型 转换 、 对 数 计算 ， 以 及 三 角 函 数 ， 等 等 。 而 | 


目 这 个 模块 的 大 部 分 功能 都 是 上 


C 语 言 实 现 的 ， 拥 有 极 


高 的 计算 效率 。 


6.1.1 ”常见 常量 
所 谓 常量 ， 就 是 永远 不 会 改变 的 数量 ， 在 数学 以 及 自然 科学 中 ，e 自 然 底数 及 值 是 最 常见 的 常量 ， 在 math 这 个 模块 中 ， 可 以 使 用 下 面 的 方式 来 使 用 这 两 个 党 


>>> import math 

>>> 

>>> math.pi 

3.141592653589793 

>>> math.e 

2.718281828459045 

>>> 

>>> print ('m: $%.30f' $ math.pi) 

I: 3.141592653589793115997963468544 
>>> print ('e: %.30f' % math.e) 

e: 2.718281828459045090795598298428 


细心 的 读者 可 能 会 发 现 ，math 模 块 采 有 


的 虽 是 硬 编码 的 pi 和 e 的 值 ， 但 在 指定 了 保留 小 数 点 后 30 位 的 精 


度 时 ， 也 能 够 给 出 更 高 精度 的 数值 ， 这 是 怎么 区 


呢 ? 实际 上 math 模 块 中 的 值 只 不 过 是 一 个 快捷 


方式 ,真正 计算 时 会 通过 内 部 的 C 语 言 模块 获取 精度 更 高 的 版 本 ， 所 以 不 用 担心 计算 的 精度 问题 。 


6.1.2 “无穷 


无 穷 在 数学 中 是 一 个 复杂 的 问题 ， 在 Python 中 也 不 简单 。 一 般 来 说 Python 中 所 有 的 浮 点 型 都 能 够 达到 双 精 度 浮 点 型 的 取 值 范 昌 
考 一 段 程序 : 


站， 即 1.0E-37 到 1.0E+37。 超 出 了 这 个 范 上 


和 的 则 称 作 无 穷 INF， 下 面 


来 


>>> for i in range(0, 201, 20): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
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X= 10.0 ** i 
be 
print '{:3d} 


Ld 1 False 
20 1le+20 let+40 False 
40 1le+40 le+80 False 
60 le+60 le+1l20 False 
80 1le+80 le+160 False 

100 le+100 le+200 False 

120 1le+120 le+240 False 

140 le+140 le+280 False 

160 1le+160 inf True 

180 1le+180 inf True 

200 1le+200 inf True 

上 面 的 程序 是 尝试 使 用 不 同 的 指数 值 来 创建 逐渐 增 大 的 数 ， 并 且 使 


{!s:6} 


{!s:6} {!s:6}'.format(e, x, y, math.isinf 


math.isinf0) 方 法 判断 这 个 值 的 大 小 是 否 达到 了 Python 对 无 穷 的 定义 。 你 会 发 现 当 我 们 计算 10 的 160 次 方 ， 然 后 再 做 乘 方 时 就 获取 了 


无 穷 大 ， 比 这 个 值 大 的 值 都 成 为 无 穷 大 了 。 不 过 有 些 时 候 并 不 是 所 有 的 达到 无 穷 大 的 值 都 会 显示 为 inf， 有 的 则 会 抛 出 一 个 OverflowError 的 异常 ， 这 是 


>>> x = 10.0 ** 160 

bo a jab 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

OverflowError: (34, 'Result too large') 

>>> x*x 

inf 

>>> x*x*x 

inf 

>>> 


由 于 不 同 的 操作 符 在 实现 上 有 所 差异 造成 的 ， 比 如 : 


最 后 ， 由 于 inf/inf 是 没有 意义 的 计算 ， 


此 ， 在 发 生 这 样 的 情况 时 得 到 的 结果 就 是 NaN， 可 以 


可 以 看 到 ， 在 计算 乘法 时 并 不 会 地 出 异常 ， 而 在 计算 等 值 的 乘 方 时 就 会 地 出 异常 ， 这 一 点 尤其 需要 注意 。 


使 用 math.isnan0 进 行 判断 ， 如 下 : 
>>> XxX = (10.0 ** 200) * (10.0 xx 200) 
>>> y = x/x 
>>> Y 
nan 
>>> x 


inf 

>>> float ('nan') 
nan 

>>> math.isnan(y) 
True 

>>> 


6.1.3 ”整数 转换 


浮 点 型 转换 为 整数 类 型 时 ， 在 math 模 块 中 共有 三 种 方法 ，math.trunc() 会 将 浮 点 型 小 数 点 后 面 
math.ceil0 则 正好 与 之 相反 ， 是 取 比 当前 浮 点 型 大 的 最 近 的 整数 ， 具 体 的 例子 可 以 参考 下 面 的 程序 : 


的 数字 全 部 截 掉 ， 只 留 下 整数 的 部 分 ;math.floor0 方 法 会 取 比 当前 浮 点 型 小 的 最 近 的 整数 ; 而 


SN 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (i, int(i), math.trunc(i), math.floor(i), math.ceil (i)) 
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(95 3 -3 AD: “30) 
[| 
| 和 一 下 7 忆 二 全 玫 和 主人 
人 
(0，0，0，0.0，0.0) 
(0.2，0，0，0.0，1.0) 
(le5r Le lr Les 2.0) 
(2587 2: 27 2.0; 3.0) 

光 5 3 

>>> 


在 上 面 的 代码 中 ， 第 一 列 是 原始 的 数字 ， 第 二 列 是 使 用 int0 直 接 进行 转换 ， 第 三 列 是 使 用 trunc0 函 数 ， 第 四 列 是 使 用 floor(0) 函 数 ， 最 后 一 列 是 使 用 ceil() 遂 数 。 虽 然 这 几 个 函数 都 是 整数 转换 ， 但 是 转换 
之 后 的 结果 仍然 是 浮 点 类 型 ， 这 是 为 了 避免 遇 到 Python 2.7 的 整除 问题 。 请 注意 最 后 一 行 3.5 经 过 floor() 转 换 之 后 会 变 为 3.0， 不 过 第 一 行 的 -3.5 经 过 floor() 函 数 转换 后 就 变 为 -4.0， 这 也 可 以 看 出 ceil() 函 数 与 
math.floor() 方 法 正好 相反 。 


6.1.4 ”绝对 值 和 符号 


在 math 中 可 以 使 用 fabs() 函 数 计算 浮 点 数 的 绝对 值 ， 比 如 : 


>>> import math 

>>> print math.fabs(-1.1) 
>>> print math.fabs (-0.0) 
>>> print math.fabs (0.0) 


>>> print math.fabs (1.1) 


为 了 给 一 个 值 设 定 一 个 确定 的 符号 ， 可 以 使 用 math.copysign() 方 法 : 


> for £ in [10 0.0 .07 float (~inf), floatt'inf'); float('-nan'}, float('nan')]: 
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s = int(math.copysign(1, f£)) 
print('{5.1£f} {Sd} {le:5} {le:5} {le:5}".formatlf; sr £ < 


“ls -1 True False False 
0.0 1 False False True 
1.0 1 False True False 

“inE -1 True False False 
in£ 1 False True False 
nan -1 False False False 
nan 1 False False False 

>>> 


这 里 是 将 第 一 行程 序 中 列表 里 的 值 的 符号 指定 给 1， 然 后 观察 这 个 新 值 的 符号 的 变化 ，math.copysign() 函 数 的 第 一 个 参数 是 需要 被 指定 符号 的 值 ， 第 二 个 参数 是 提供 符号 的 值 ， 即 将 数据 中 第 一 个 参数 
的 值 指定 为 第 二 个 参数 的 符号 ， 从 上 面 代码 的 运行 结果 可 以 看 出 ， 第 二 列 中 的 “1” 的 符号 与 for 循 环 迭 代 的 列表 中 的 值 符号 完全 一 致 。 值 得 注意 的 是 ， 不 仅 普通 的 数字 有 正 负 之 分 ，0、 无 穷 inf、 都 是 有 正 
负 之 分 的 ， 而 无 意义 nan 则 既 不 是 小 于 0 也 不 是 大 于 0， 更 不 是 等 于 0 的 数 ， 所 以 它 是 无 意义 的 数 。 


6.1.5 “常用 计算 


在 使 用 计算 机 程序 进行 浮 点 数 的 计算 时 ， 通 常会 由 于 精度 的 问题 引入 额外 的 误差 ， 最 常见 的 情况 就 是 将 10 个 0.1 相 加 ， 其 结果 并 不 是 1， 读 者 不 妨 自己 尝试 一 下 : 


>>> values = [ 0.1 ] * 10 

>>> values 

ely Dr ols Dilr Ble ils Bde WoL Ry 

>>> sum(values) 

0.9999999999999999 

>>>s=0 

>>> for x in values: 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... st=x 
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2%> 8 

0.9999999999999999 

> 


上 面 使 用 了 两 种 常见 的 Python 累加 方法 ， 都 无 法 得 到 1.0 的 结果 ， 可 能 有 的 时 候 我 们 并 不 太 关心 这 个 非常 接近 1.0 的 数 到 底 差 多 少 才 等 于 1.0， 但 是 当 计 算账 目 或 反复 的 迭代 时 ， 误 差 会 被 积累 ， 以 至 于 最 
终 产生 客观 的 差距 。math 模 块 提 供 了 一 个 函数 fsum() 可 以 进行 精确 地 计算 ， 如 下 : 


>>> math.fsum(values) 
1.0 
>>> 


除 此 之 外 ， 大 家 是 否 还 记得 在 介绍 函数 的 章节 里 所 讲 的 阶乘 计算 么 math 模块 中 也 提供 了 简单 的 阶乘 计算 函数 factorial() : 


>>> import math 

Sy For 4 in [0 10 2D B00 dQ S01s 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (i, math.factorial (i)) 
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1.0, 1) 
:07 2) 
.0, 6€) 
.0, 24) 

.0, 120) 


6.1.6 ”指数 和 对 数 


指数 增长 曲线 ， 在 社会 学 和 经 济 学 中 都 有 着 广泛 的 应 用 ， 对 数 则 是 指数 表达 的 一 种 特殊 形式 。Python 的 math 模 块 中 也 提供 了 指数 计算 ， 如 下 代码 所 示 。 


>>> import math 


>>>x=2 

>>>y=3 

>>> print (x, y, math.pow (x, y)) 
(2, 3, 8.0) 

> 

>>> x = 2.2 

>>> y = 3.3 


>>> print (x, y, math.pow (x, y)) 
(2.2, 3.3, 13.489468760533386) 
> 


对 数 的 计算 也 很 容易 : 


>>> import math 

>>> 

>>> print math.1og(8) 
2.07944154168 

>>> print math.log(8, 2) 
30 

>>> print math.1log(0.5, 2) 
= 

>>> 


其 中 log() 函 数 的 第 二 个 参数 是 对 数 的 底 ， 默 认 情况 下 是 自然 底数 e， 如 果 要 提供 第 二 个 参数 ， 则 应 手动 指定 底数 。 而 且 math 还 专门 提供 了 一 个 log10() 的 函数 ， 用 来 以 更 高 的 精度 处 理 以 10 为 底 的 对 数 计 
算 ， 这 是 因为 以 10 为 底 的 对 数 经 常用 作 统 计数 轴 等 对 精度 要 求 更 高 的 计算 。 我 们 可 以 对 比 一 下 以 10 为 底 ， 选 择 不 同 指数 计算 的 值 在 求 对 数 时 还 原 的 精度 ， 如 下 : 


>>> import math 


>o> 

>>> for i in range(0, 10): 
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http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
(Oi Lsdr 0.0 te 加 

Ys LO Tab Ldy 

,100.0, 2.0, 2.0) 

7 1000.0, 3.0, 2.9999999999999996) 

1 10000.0, 4.0, 4.0) 

7 L00000,.0, 5.0; 5.0) 

: 1000000.0; 6.0, 5.999999999999999) 
1 10000000.0, 7.0, 7.0) 

’ 


oswN 


( 
( 
( 
( 
( 
( 
( 
(8, 100000000.0, 8.0 
( 


8.0) 
9, 1000000000.0, 9.0, 8.999999999999998) 
>>> 


可 以 看 到 ， 在 指数 为 3、6、9 时 log0 函 数 的 精度 相 比 log100 有 一 定 的 损失 。 


还 可 以 通过 math.exp() 函 数 来 计算 自然 底数 e 的 指数 值 ， 代 码 如 下 : 


>>> math.e ** 2 
7.3890560989306495 

>>> math.pow (math.e, 2) 
7.3890560989306495 

>>> math.exp (2) 
7.38905609893065 

>>> 


相 比 较 而 言 ， 使 用 Python 直接 进行 运算 时 ， 其 在 精度 上 会 有 所 提高 。 除 了 前 面 已 经 介绍 过 的 math 中 的 方法 ， 在 math 模 块 中 还 有 更 多 的 方法 能 够 提供 高 精度 的 计算 结果 。 实 际 上 对 于 精确 的 计算 有 需求 
的 场景 ， 应 当 尽 可 能 地 使 用 math 模 块 中 提供 的 功能 。 


6.2 time 


时 间 是 一 个 复杂 的 概念 ， 也 是 很 多 数据 中 必须 要 处 理 的 问题 ，Python 中 有 几 个 与 时 间 有 关 的 模块 ， 比 如 time、datetime 和 calendar 等 。time 是 基础 的 时 间 处 理 模 块 ，datetime 的 功能 与 time 基 本 相 
同 ,但 是 可 以 针对 时 分 秒 和 年 月 日 分 别 进行 处 理 ， 而 calendar 则 用 于 处 理 万 年 历 。 因 为 本 书 主要 是 讲解 数据 处 理 的 ， 所 以 暂时 只 使 用 time 就 足够 了 ， 有 兴趣 的 读者 可 以 自行 学 习 剩 下 的 两 个 模块 。 在 开始 讲 
这 一 节 内 容 的 讲解 之 前 ， 我 们 先 来 了 解 一 下 什么 是 时 间 戳 ， 在 你 的 Python shell 上 输入 下 面 的 代码 : 


>>> import time 
>>> time .time( 
1457405123.899797 
>>> 


结果 得 到 一 个 浮 点 数 ， 这 个 数 被 硬性 地 规定 为 从 格林 威 治 时 间 1970 年 1 月 1 日 0 时 0 分 0 秒 (也 就 是 北京 时 间 1970 年 1 月 1 日 8 时 0 分 0 秒 ) 以 来 所 经 历 过 的 秒 数 。 全 世界 所 有 的 计算 机 都 遵守 这 个 规则 ， 让 时 
间 戳 成 为 一 个 与 时 区 无 关 的 数字 ， 这 也 是 很 容易 被 计算 机 处 理 的 数字 ， 所 以 如 果 某 个 与 时 间 相关 的 数据 是 只 用 于 计算 机 处 理 的， 那么 只 要 有 时 间 戳 这 一 种 格式 就 足够 了 。 不 过 更 多 的 时 候 时 间 是 提供 给 人 看 
的 ， 所 以 我 们 要 对 时 间 进 行 一 系列 的 处 理 。 


如 何 才能 得 到 一 个 让 人 类 可 以 读 懂 的 时 间 呢 ?可 以 使 用 time 模 块 中 的 ctime( 方 法 : 


>>> time.ctime() 

"Tue Mar 8 11:04:28 2016' 

>>> time.ctime (time.time() -100) 
"Tue Mar 8 11:02:56 2016' 

Dy 


ctime0 有 两 种 使 用 方式 ， 当 没有 参数 时 ，ctime() 将 返回 当前 时 间 的 字符 串 版 本 ， 而 使 用 时 间 戳 加 减 响应 的 秒 数 之 后 得 到 的 则 是 经 过 加 减 后 的 时 间 字符 串 。 


如 果 想 要 单独 使 用 时 间 中 的 时 分 秒 或 年 月 日 ，time 还 会 提供 一 种 struct time 的 格式 ， 可 以 单独 获取 时 间 中 每 个 单位 的 数字 ， 比 如 : 


>>> import time 

>>> time.gmtime () 

time.struct _ time (tm year=2016, tm mon=3, tm mday=8, tm hour=3, tm min=9, tm sec=59, tm wday=1，tm_yday=68，tm_isdst=0) 
Sp> 

>>> 七 = time.localtime() 

x 起 

time.struct time (tm year=2016, tm mon=3, tm mday=8，tm_hour=11，tm min=13, tm sec=42, tm wday=1，tm yday=68, tm isdst=0) 
>>> t.tm year 

2016 


>>> 七 .tm_ mon 
3 
>>> 七 .tm_ mday 
8 
>>> t.tm hour 


二 
>>> 


time 有 两 个 函数 可 以 获取 当前 的 struct time，gmtime( 获 取 的 是 格林 威 治 时 间 下 的 struct time，localtime() 获 取 的 是 当前 电脑 所 在 时 区 的 struct time (不 要 急 ， 马 上 就 会 讲 到 时 区 的 处 理 ) 。 可 以 看 


到 time.struct_ time 格式 中 包含 了 下 面 这 几 种 单位 : 


tm_ year, tm mon, tm mday, tm hour, tm min, tm sec, tm wday, tm yday 


看 起 来 是 不 是 很 像 具 名 元 组 呢 ? 实际 上 其 使 用 方法 也 很 像 具 名 元 组 ， 可 以 使 用 点 操作 符 获取 我 们 想 要 的 时 间 值 ， 比 如 想 要 年 份 ， 就 是 ttm_year， 想 要 月 份 就 是 ttm_mon， 以 此 类 推 。 稍 有 点 复杂 的 就 
是 获取 日 期 ， 这 里 有 三 种 日 期 的 格式 : 获取 当前 日 期 是 当 周 的 第 几 天 一 ttm_wday， 获 取 当 前 日 期 是 当月 的 第 几 天 一 ttm_mday， 以 及 获取 当前 日 期 是 当年 的 第 几 天 一 ttm_yday。 如 果 要 将 struct_ time 还 


原 成 时 间 戳 ， 则 可 以 使 用 time.mktime() 方 法 : 


>>> time.mktime (time.localtime()) 
1457407407.0 
>>> 


既然 上 面 提 到 了 时 区 ， 那 么 我 们 就 不 得 不 提 到 如 何 设置 和 转换 时 区 [1]， 想 要 查看 完整 的 时 区 ， 可 以 安装 pytz 这 个 Python 第 三 方 库 ， 使 用 pytz.all timezones 就 可 以 获得 Python 所 支持 的 全 部 时 区 ， 如 


>>> import pytz 
>>> pytz.all timezones 


['Africa/Abidjan', 'Africa/Accra', 'Africa/Addis Ababa', 'Africa/Algiers', 'Africa/Asmara', 'Africa/Asmera', 'Africa/Bamako', 'Africa/Bangui', 'Africa/Banjul', 'Africa/Bissau', 


而 想 要 暂时 修改 Python 环 境 的 时 区 也 是 很 简单 的 ， 示 例如 下 : 


>>> import os 

>>> os.environ['T2'] = 'Asia/Shanghai' 

>>> time.tzset () 

>>> time.localtime () 

time.struct time (tm year=2016, tm mon=3, tm mday=8, tm hour=11, tm min=39, 
tm sec=3, tm wday=1, tm yday=68, tm isdst=0) 

>>> 

>>> os.environ['T2'] = 'US/Eastern' 

>>> time.tzset () 

>>> time.localtime () 

time.struct time (tm year=2016, tm mon=3, tm mday=7, tm hour=22, tm min=39, 
tm sec=21, tm wday=0, tm yday=67, tm isdst=0) 加 

p> 


国 上 海 时 间 慢 了 13 个 小 时 。 如 果 需 要 更 加 灵活 的 时 区 设置 功能 ,可 以 尝试 使 用 pytz 这 个 第 三 方 库 。 


上 面 的 程序 中 ， 我 们 首先 设置 Python 环 境 时 区 为 上 海 ， 打 印 本 地 时 间 为 2016 年 3 月 8 日 11 时 ， 接 下 来 会 将 时 区 设置 为 美国 东部 时 间 ， 打 印 本 地 时 间 变 为 2016 年 3 月 7 日 22 时 ,可 见 美 


图 


东部 时 间 正 好 比 中 


time 模 块 还 提供 了 两 个 函数 用 于 从 时 间 字 符 串 转换 成 struct time， 以 及 从 struct time 构 建 时 间 字 符 串 。 与 localtime( 或 mktime() 不 同 的 是 ， 通 过 这 两 个 方法 可 以 任意 定义 时 间 字 符 串 的 格式 ， 比 如 有 


这 样 一 个 时 间 字 符 串 一 2016-03-07T03:14:12+00:00， 如 何 才 能 将 其 转换 成 程序 能 够 使 用 的 struct time 呢 ? 示例 如 下 : 


>>> 七 = time.strptime ("2016-03-07T03:14:12+00:00", "%Y-%m-%dT%H:®%M:%S+00:00") 
we、 

time.struct time (tm year=2016, tm mon=3, tm mday=7, tm hour=3, tm min=14, 

tm sec=12, tm wday=0, tm yday=67, tm isdst=-1) 

> 

>>> time.strftime ("%Y-%m-%dT%H:%M:%S+00:00", t) 

'2016-03-07T03:14:12+00:00"' 

>> 


time.strptime0 是 用 来 将 时 间 字 符 串 转换 成 struct_ time 的 ， 而 time.strftime() 的 功能 正好 与 之 相反 ， 这 两 种 方法 在 转换 时 间 时 都 需要 提供 一 个 时 间 格 式 的 字符 串 表 达 式 ， 比 如 : 


"SY-%m-%dT%H: $M:%S+00:00" 


该 表达 式 代表 函数 需要 按照 “年 -月 -日 T 时 :分 : 秒 +00:00” 的 格式 进行 解析 或 格式 化 。 虽 然 大 多 数 时 候 只 需要 熟悉 上 面 提 到 的 几 个 占 位 符 即 可 ， 但 是 免不了 有 时 候 会 有 一 些小 众 的 需求 ， 一 个 更 全 的 占 位 


符 列表 可 以 参考 Python time 模 块 的 官方 文档 : https://docs.python.org/2/library/time.html。 


对 于 time， 除 了 上 面 所 提 到 的 功能 之 外 ， 它 还 有 一 个 重要 的 功能 ， 那 就 是 sleep0， 如 果 想 要 让 程序 在 运行 时 间歇 地 休息 ， 可 以 使 用 这 个 函数 ， 比 如 : 


>>> for x in range(5): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/,.. 


Mon Mar 7 23:16:51 2016 
Mon Mar 7 23:16:54 2016 
Mon Mar 7 23:16:57 2016 
Mon Mar 7 23:17:00 2016 
Mon Mar 7 23:17:03 2016 


print (time.ctime()) 
time.sleep (3) 


上 面 的 程序 让 打印 函数 每 隔 三 秒 打印 一 次 当前 的 时 间 ，time.sleep(0 提 供 了 一 个 很 好 的 定时 器 功能 。 


四 关于 时 区 的 具体 划分 可 以 参考 https://zh.wikipediaorg/wiki/ 时 区 。 


6.3 random 


random 这 个 Python 标准 库 模 块 主要 有 三 个 作用 ， 生 成 随机 的 数据 用 于 测试 和 练习 ， 随 机 地 选取 数据 用 于 抽样 ， 生 成 随机 分 布 


6.3.1 ”随机 数 生 成 器 


于 统计 编程 。 


可 能 有 的 读者 听 说 过 随机 数 生成 器 ， 也 可 能 听 说 过 伪 随 机 数 生成 器 ， 没 错 ， 几 乎 所 有 的 计算 机 程序 生成 的 随机 数 都 不 是 真正 的 随机 数 ， 而 是 以 一 个 种 子 〈 也 称 为 真 随机 数 ) 为 初始 值 ， 通 过 算法 不 停 地 


和 迭代 来 生成 后 续 的 随机 数 ， 不 过 这 里 暂且 不 用 管 它 ， 先 来 看 一 看 如 何 生成 一 个 0 到 1 之 间 的 随机 浮 点 数 : 


>>> import random 

>>> for i in range(5): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (random. random () ) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

0.732992067755 

0.802119586757 

0.291396611343 

0.220519082266 

0.209992573094 

>>> 


置 


上 面 的 代码 使 用 random() 函 数 生 成 了 5 个 随机 数 ， 不 过 有 的 时 候 我 们 可 能 会 有 这 样 的 需求 ， 在 进行 可 重复 的 实验 时 希望 能 够 反复 地 生成 同一 组 随机 数 ， 所 以 random 提 供 了 一 个 seed() 方 法 让 我 们 手动 设 
一 个 随机 数 种 子 ， 以 达到 类 似 的 效果 ， 反 复 运行 下 面 的 Python 程序 : 


区 


import random 


random. seed (5) 
for i in range(5): 
Print (random. random ()) 


得 到 的 结果 为 : 


.62290169489 
.741786989261 
.795193565566 
.942450283777 
.73989857474 


口 口 口 口 品 


如 果 你 的 随机 数 种 子 也 设置 为 5 了 的 话 ， 那 么 所 得 到 的 结果 应 当 与 上 面 的 结果 一 致 ， 所 以 就 算是 随机 的 实验 ， 也 可 以 通过 提供 我 所 使 用 的 随机 数 种 子 ， 让 其 他 人 复 现 我 的 实验 结果 。 


如 果 只 是 随机 地 生成 整数 ， 还 可 以 使 用 random.randint0， 以 及 random.randrange( 这 两 个 方法 ， 示 例如 下 : 


列 


>>> for i in range(5) : 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (random.randint (1, 500)) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

462 

15 

233 

472 

325 

>>> for i in range(5): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (random.randrange (0, 1000, 100)) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

900 

100 

400 

200 

500 

>>> 


randint0 方 法 需要 两 个 参数 ， 即 随机 数 选取 范围 的 起 始 值 和 终止 值 ， 而 randrang0 则 与 range0 溯 数 类 似 ， 除 了 将 起 止 值 作为 参数 之 外 ， 还 有 一 个 步 长 作为 参数 ， 大 致 效果 就 相当 于 在 生成 range0 这 个 
表 之 后 随机 选取 其 中 的 值 。 从 上 面 代 码 的 结果 中 可 以 看 到 ， 步 长 为 100 时 ， 只 有 整 100 的 数字 才 会 被 选中 。 


6.3.2 取样 


有 的 时 候 我 们 需要 打 乱 一 些 数据 的 顺序 ， 随 机 选择 一 个 或 多 个 值 ， 这 个 时 候 就 需要 借助 random 模 块 中 的 shuffle0、choice(0、sample( 这 几 个 函数 了 ， 示 例如 下 : 


>>> import random 

>>> a = [0,1,2,3,4,5,6,7,8,9] 

>>> for x in range(5): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... random. shuffle (a) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (a) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

,+ 1, 9, 7, 2, 4, 8] 

: 5 2, 1, 4, 8, 3] 


7 3v 


IF w co ~ 
No 


7 
,4, 
+ 2, 3, 7, 9, 0, 1, 6€] 
[5, + 6, 3, 1, 7, 9, 4, 8] 

>>> for x in range(5): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (random. choice (a) ) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/,.. 

3 

5 

0 

0 

>>> for x in range(5): 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (random. sample (a, 3)) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 

[8, 4, 2] 

5 


心 
heooeea 


4 
[4, 1, 5] 
[7, 0, 9] 
[4, 3, 1] 
[6, 8, 1] 


Pp 


’ 
Sy> 


顾名思义 ，shuffle() 函 数 就 是 “ 洗 牌 ”的 意思 ， 可 以 使 用 这 个 函数 打 乱 原 始 列表 的 顺序 。 需 要 注意 的 是 ，shuffle() 函 数 是 没有 返回 值 的 ， 它 会 原 地 修改 原始 列表 的 顺序 ， 如 果 想 要 保留 原始 列表 的 顺 


序 ， 那 么 请 不 要 忘记 使 用 切片 复制 或 使 用 copy(0 函 数 保存 原始 列表 的 顺序 。choice() 的 功能 也 非常 简单 ， 它 会 随机 地 选择 列表 中 的 一 个 值 。sample() 的 意思 是 采样 ， 第 二 个 参数 是 需要 随机 地 选取 几 个 值 ， 如 
果 这 个 参数 的 值 为 1， 则 sample() 的 效果 就 与 choice() 的 效果 一 致 了 。 


关于 random 模 块 ， 还 有 一 个 重要 的 功能 没有 讲解 ， 那 就 是 分 布 ， 尤 其 是 除了 均匀 分 布 之 外 的 其 他 分 布 ， 比 如 正 态 分 布 、 高 斯 分 布 、 指 数 分 布 等 ， 因 为 这 涉及 具体 的 统计 概率 知识 ， 因 此 分 布 的 相关 内 


容 将 放 到 统计 编程 的 章节 去 一 起 讲解 。 


6.4 glob 和 fileinput 


在 Python 中 最 常用 的 文本 读 写 方式 就 是 使 用 open( 函 数 了 ， 假 设 我 们 有 一 个 文件 名 为 abc.log 的 文本 文件 放置 在 目录 /Users/jilu/Downloads/ 下 [1]， 其 中 的 内 容 如 下 : 


TITTTLTLTLTLTTTLTLTHHL 
2222222222222222222 
3333333333333333333 
4444444444444444444 
5555555555555555555 


那么 ， 可 以 用 下 面 的 代码 读 取 其 中 的 内 容 : 


>>> fr = open("/Users/jilu/Downloads/abc.1log", 'r') 

>>> lines = fr.readlines () 

>>> for line in lines: 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (line.strip()) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
计 寺 LT1TTLTIdTETLTLTL Ti] 款 加 

2222222222222222222 

3333333333333333333 

4444444444444444444 

5555555555555555555 

>>> 

>>> fr.close() 


open() 函 数 的 第 一 个 参数 是 要 打开 文件 的 路 径 ， 第 二 个 参数 是 打开 文件 的 方式 ， 如 果 该 参数 是 “r” 则 代表 以 只 读 的 方式 打开 ， 这 样 就 不 会 不 小 心算 改 了 文件 的 内 容 而 没有 发 觉 。 如 果 第 二 个 参数 
为 “a” 则 代表 以 读 写 的 方式 打开 ， 这 时 候 就 即 能 读 又 能 写 这 个 文件 。open0 函 数 会 返回 文件 操作 符 ， 习 惯 上 来 讲 ， 如 果 是 以 只 读 的 方式 打开 文件 的 ， 那 么 会 将 文件 描述 符 赋值 为 fr， 如 果 是 以 读 写 方式 打开 
文件 的 则 赋值 为 fw， 这 样 处 理 之 后 ， 就 可 以 区 分 前 者 是 只 读 ， 后 者 是 可 写 (" 是 read 的 缩写 ，w 是 write 的 缩写 ，f 册 | 代表 file) 。 然 后 使 用 文件 描述 符 的 readlines() 方 法 按 行 读 取 文件 内 容 向 ， 再 使 用 for 循 环 
进行 迭代 打印 。 最 后 在 退出 程序 之 前 不 要 忘记 关闭 文件 描述 符 ， 使 用 close() 方 法 来 关闭 ， 如 果 在 文件 写 入 时 没有 调用 clouse() 方 法 则 可 能 会 导致 部 分 数据 写 入 不 成 功 。 可 能 有 的 读者 见 到 过 下 面 这 样 读 取 文 件 
的 方式 : 


>>> with open("/Users/jilu/Downloads/abc.1log", 'r') as fr: 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... lines = fr.readlines() 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


with 在 Python 中 称 为 上 下 文 管理 器 ， 所 谓 上 下 文 管理 器 的 功能 就 是 在 进入 和 退出 上 下 文 管理 器 时 执行 提前 定义 好 的 命令 。 这 里 不 会 详细 地 讨论 如 何 使 用 及 如 何 定义 上 下 文 管理 器 ，Python 内 置 的 
open() 方 法 是 一 个 支持 上 下 文 管理 器 的 方法 。 当 在 上 下 文 管理 器 中 打开 文件 描述 符 时 ， 会 在 退出 上 下 文 管理 器 后 由 程序 自动 执行 close() 方 法 。 


现在 就 可 以 读 取 一 个 文件 的 内 容 了 ， 那 么 如 果 想 要 同时 读 取 多 个 文件 的 内 容 呢 ?首先 ， 需 要 获取 所 有 文件 的 文件 名 ， 这 时 需要 用 到 glob 模 块 ， 假 设 现在 我 们 有 一 个 目录 /Users/jilu/Downloads/logs， 
其 中 有 3 个 文件 : 


MacBook-Pro:logs:% ls -1 


total 24 

drwxr-xr-x 5 jilu staff 170 3 9 11:43 。/ 

GrWwx~—————- + 617 jilu staff 20978 3 9 11:42 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/../ 
—rWw-r--r—— 1 jilu staff 9 3 9 11:44 abcl.1og 到 

一 EW=T 一 一 -一 1 jilu staff 9 3 9 11:44 abc2.1og 

a 1 jilu staff 9 .3 9 14 abo3.1og 


我 们 可 以 使 用 下 面 的 命令 获取 这 三 个 文件 的 绝对 路 径 : 


>>> from glob import glob 

>>> file path = glob("/Users/jilu/Downloads/logs/*") 

>>> file path 

['/Users/jilu/Downloads/logs/abcl.1o0g', '/Users/jilu/Downloads/logs/abc2.10g', '/Users/jilu/Downloads/logs/abc3.10g'] 
>>> 


其 中 glob() 函 数 的 参数 是 一 个 Linux 通 配 符 的 写法 ， 在 写 完了 路 径 前 缀 之 后 以 一 个 “* 号 代表 这 个 路 径 的 全 部 文件 都 会 被 选中 ， 如 果 logs 中 还 有 其 他 的 目录 ， 并 且 在 目录 中 还 有 其 他 的 文件 ， 那 么 也 可 以 
使 用 “/Users/jilu/Downloads/logs/*/*” 来 表示 ， 多 进入 一 层 目 录 。 


之 后 就 可 以 使 用 fileinput 模 块 的 input0 方 法 直接 读 取 文件 的 每 一 行 了 ， 示 例如 下 : 


>>> import fileinput 

>> fr = fileinput.input (file path) 

>>> for line in fr: 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... print (line.strip(), fileinput.filename(), fileinput.filelineno() 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/,.. 

('11111111', '/Users/jilu/Downloads/logs/abcl.1o0g', 1) 

('22222222', '/Users/jilu/Downloads/1logs/abc2.10g', 1) 

('33333333', '/Users/jilu/Downloads/logs/abc3.10g', 1) 

>>> 


还 可 以 在 每 一 次 迭代 时 调用 fileinput.filename() 和 fileinput.filelineno() 方 法 ， 分 别 查 看 该 行 数据 来 自 于 哪个 文件 的 哪 一 行 。 使 用 glob 与 fileinput 可 以 极 大 地 简化 读 取 文件 行 的 操作 ， 非 常 的 方便 。 


[由 如 果 读 者 使 用 的 是 Windows 操 作 系 统 ， 那 么 路 径 就 可 能 不 是 这 样 的 ， 比 如 c://Users/jilu/Downloads， 请 根据 你 实际 的 情况 确定 正确 的 路 径 。 
思 关于 如 何 写 入 文件 ， 会 在 第 7 章 中 进行 讲解 ， 当 然 聪 明 的 读者 也 能 够 猿 到 ， 如 果 使 用 “a” 模 式 打 开 文 件 ， 调 用 文件 描述 符 的 write0 方 法 就 可 以 写 入 ， 不 过 需要 注意 的 是 ， 写 入 文件 程序 不 会 自动 换行 ， 需 
要 在 每 个 写 入 的 行 尾 手动 增加 一 个 换行 符 “\n”。 


6.5 ”bz2 和 gzip 


有 的 时 候 为 了 节省 硬盘 空间 ， 还 会 将 文件 进行 压缩 存储 ， 尤 其 是 在 数据 科学 的 工作 中 ， 经 常会 接触 大 量 的 数据 。 常 见 的 压缩 格式 有 zip、bz2、9gz、rar 等 ， 不 过 笔者 不 建议 使 用 rar 格 式 ， 因 为 这 个 是 专 
门 为 Windows 提 供 的 压缩 格式 ， 很 多 数据 处 理工 具 都 没有 针对 rar 的 内 建 支持 ， 即 使 是 Python， 也 要 结合 第 三 方 库 才 能 使 用 rar 格 式 的 文件 。 另 外 有 些 Linux 用 户 可 能 会 见 到 tar.gz 的 格式 ， 这 里 需要 说 明 的 
是 ，tar 并 不 是 压缩 格式 ， 只 是 一 个 打包 格式 ， 用 于 将 很 多 小 文件 合并 成 一 个 大 文件 ， 甚 至 大 多 时 候 合并 完成 的 文件 是 比 原始 文件 还 要 大 的 ， 而 9z 才 是 真正 的 压缩 格式 。zip 格 式 是 一 个 同时 打包 和 压缩 的 格 
式 。 因 为 tar 与 zip 都 会 打包 文件 ， 因 此 都 不 太 适 合 存储 需要 程序 处 理 的 数据 ， 所 以 本 节 主 要 介绍 两 种 压缩 Python 文件 的 处 理 方法 一 bz2 和 gzip 模 块 ， 它 们 的 使 用 方式 大 同 小 异 ， 示 例如 下 : 


import bz2 
import gzip 


print ('bz2') 
print ('='*20) 
f = bz2.B22File("/Users/jilu/Downloads/logs/abcl.10g.bz2", 'w') 
for x in ay ‘B's Bs 
f.write(x + '\n') 


f.close() 


f = bz2.BZ22File("/Users/jilu/Downloads/logs/abcl1.1o0g.bz2", ' 
for x in f.readlines(): 

print (x) 
f.close() 


print('gs') 
print ('='*20) 
f = gzip.open('/Users/jilu/Downloads/logs/abc4.10g.gz', 'w') 
er wn a BY ws 
f.write(x + '\n') 
f.close() 


f = gzip.open('/Users/jilu/Downloads/logs/abc4.10g.gz', 'r') 
for line in f.readlines(): 

print (line) 
f.close() 


针对 这 两 个 模块 ， 上 面 分 别 进行 了 写 入 abc 三 个 字母 ， 然 后 再 按 行 读 取 的 操作 ， 它 们 与 open() 函 数 的 操作 基本 一 致 ， 也 很 方便 记忆 。 


6.6 pprint 


可 能 有 读者 看 到 pprint 时 会 觉得 是 不 是 打 错 了 ， 实 际 上 这 是 pretty-print 的 缩写 ， 也 就 是 “漂亮 打印 ” ， 有 些 时 候 我 们 会 有 一 些 数据 量 大 ， 而 且 结构 复杂 的 数据 ， 如 果 直接 


print 打 印 则 会 变 得 难以 阅 


读 ，pprint 就 是 可 以 将 其 变 成 美观 结构 并 打印 出 来 的 模块 ， 比 如 运行 下 面 的 代码 : 

from pprint import pprint 
data = [(i, {'a': 'A', 

‘pb': 'B', 

‘crs rc, 

rd: 'D', 

er: rE', 

fr :FE 

'g': '@', 

'h': 8 

}) 

for i in xrange (3) 
] 
print (data) 
print ('='*20) 
Pprint (data) 
结果 就 像 下 面 这 样 : 
'B', 'e': Ed': 'D', 'g' IE: HT}), (1, Ta: A er: Cl, tb': Be Ed 'D', ‘Gr, fr Epo oH}), ( 
虽然 稍微 占 了 一 些 篇 幅 ， 但 是 人 们 阅读 起 来 就 方便 多 了 ， 而 且 在 电脑 显示 器 上 ， 篇 幅 又 不 会 额外 多 花 钱 趾 。 pprint 模 块 还 有 另外 一 个 方法 pformat0)， 这 个 方法 并 不 是 直接 将 结果 打印 出 来 ， 而 是 会 返回 
格式 化 好 了 的 字符 串 。 


[] 尽管 你 确实 为 这 本 书 付费 了 。 


6.7 _ traceback 


如 果 有 些 读者 已 经 开始 使 


第 3 章 所 讲 的 异常 处 理 ， 那 么 就 会 发 现 


tryhttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16309/OEBPS/Text/...excepthttp://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/16309/OEBPS/Text/... 处 班 


异常 时 无 法 打印 错误 堆栈 ， 难 以 定位 错误 的 来 源 ， 比 如 下 面 这 段 代码 : 


# ! /usr/bin/python 
# -+= Codingy utf-8 ~*~ 


from _ future ”import print function 


def produce exception () : 
raise StandardError('test') 


trys 
produce exception() 
except Exception, e: 
print (e) 


运行 之 后 的 结果 是 : 


$python traceback test.py 
test 


可 以 看 到 ， 这 里 仅仅 只 是 打印 出 了 异常 的 信息 ， 而 没有 打印 出 像 不 用 tryhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16309/OEBPS/Text/...except... 时 的 错误 堆栈 信息 ， 就 像 下 面 这 样 : 


Traceback (most recent call last): 
File "/Users/jilu/traceback test.py ", line 10, in <module> 
produce exception () 
File "/Users/jilu/traceback test.py ", line 8, in produce exception 
raise StandardError ('test") 
StandardError: test 


如 果 想 要 得 到 这 么 详细 的 信息 ， 比 如 包括 出 现 异常 的 文件 名 (traceback_test.py) ， 异 常 出 现 的 行 数 (10) ， 以 及 异常 的 类 型 (StandardError) ， 那 该 怎么 办 呢 ， 可 以 使 用 traceback.print_exc() 来 
达到 同样 的 效果 ， 让 我 们 导入 traceback 包 ， 并 把 原来 程序 中 的 print(e) 更 换 为 traceback.print_exc(0， 这 个 函数 并 不 需要 参数 ， 再 试 一 次 ， 看 看 结果 与 上 面 的 错误 堆栈 是 否 相同 。 与 pprint 模 块 一 样 ， 有 些 
时 候 我 们 并 不 需要 直接 打印 出 错误 堆栈 ， 而 是 想 要 把 错误 堆栈 以 字符 串 的 形式 在 他 处 利用 ， 这 时 则 可 以 使 用 traceback.format_exc() 方 法 。 上 面 的 程序 可 以 写成 : 


try: 
produce exception () 

except Exception, e: 
err = traceback.format exc() 
print (err) 


6.8 JSON 


JSON 本 来 是 一 种 便利 的 网 络 数据 传输 格式 ， 其 形式 与 Python 中 的 字典 极其 类 似 ， 参 考 下 面 的 形式 : 


"cloudwatch.emitMetrics": true, 
"kinesis.endpoint": "kinesis.cn-north-1.amazonaws.com.cn", 


"flows": [ 
{ 
"filePattern": "/mt/log/nginx/access.1o0g", 
"kinesisStream": "static log stream test", 
"partitionKeyOption": "RANDOM" 
} 
] 
i 


实际 上 ， 一 个 JSON 文 件 与 Python 的 字典 是 可 以 相互 转换 的 ， 参 考 下 面 的 代码 : 


# ! /usr/bin/python 
# -*— coding: utf-8 一 * 一 


from __future _ import print function 
import json 


with open('/Users/jilu/Downloads/aws-kinesis-agent.json', 'r') as fr: 
raw j = fr.read() 


j = json.loads (raw j) 


print (j) 
print (json.dumps (j)) 


print (json.dumps (j, ensure ascii=False, indent=4)) 


可 通过 json 模 块 中 的 loads0 及 dumps0 这 两 个 函数 在 JSON 数 据 与 Python 字 典 之 间 进 行 互相 转换 。loads() 函 数 可 以 将 一 个 JSON 转 换 成 一 个 Python 的 字典 ， 而 dumps() 函 数 的 功能 则 相反 。 对 比 一 下 上 
面 程序 的 前 两 个 输出 可 以 比较 JSON 与 Python 字典 的 区 别 : 


dict 
{u'cloudwatch.emitMetrics': True, u'kinesis.endpoint': u'kinesis.cn-north-1.amazonaws.com.cn', u'flows': [{u'kinesisStream': u'static log stream test', u'partitionKeyOption': t 


JSON 


{"cloudwatch.emitMetrics": true, "kinesis.endpoint": "kinesis.cn-north-1.amazonaws.com.cn", "flows": [{"kinesisStream": "static lo0g stream test", "partitionKeyOption": "RANDOM" 


实际 上 除了 JSON 必 须 使 用 双 引 号 来 包括 字符 串 之 外 ， 其 他 几乎 没有 区 别 ， 这 也 是 Python 中 字典 结构 的 优势 。 也 正 是 这 一 特性 使 得 Python 非常 适合 作为 API 的 编写 语言 。 另 外 如 果 想 让 上 面 的 结果 直接 
打印 成 JJON 数 据 ， 那 么 会 获得 一 个 没有 空格 和 空 行 的 输出 ， 这 样 在 面 对 数 据 较 多 的 JSON 时 非常 不 便于 进行 调试 ， 所 以 在 使 用 son 模 块 的 dumps() 方 法 时 还 可 以 增加 一 些 参数 ， 比 如 indent 参 数控 制 了 每 一 
个 JSON 单 元 的 缩 进 ， 我 们 一 般 使 用 4 个 空格 ， 与 Python 代码 缩 进 的 风格 保持 一 致 。 而 另外 一 个 关键 的 参数 就 是 ensure_ascii， 其 默认 值 是 True， 这 时 在 输出 的 JSON 中 所 有 的 非 AsCll 字 符 都 会 进行 转 码 ， 以 
纯 ASCII 字 符 表示 ， 这 样 是 没 法 正确 显示 中 文 的 。 为 了 让 输出 的 JSON 正 确 地 显示 中 文 ， 需 要 让 ensure_ascii 的 值 为 False， 这 样 就 可 以 了 。 


第 7 章 ”用 Python 读 写 外 部 数据 


中 CSV 是 纯 文本 文件 ， 而 Excel 是 二 进 制 文件 ，Python 


外 部 数据 是 多 种 多 样 的 ， 比 如 前 面 几 章 已 经 学 习 过 如 何 读 取 文本 文件 中 的 数据 。 在 数据 科学 的 应 用 中 ，CSV、Excel 文 件 也 是 常用 的 文本 文件 ， 


都 为 我 们 提供 了 相应 的 模块 用 来 读 写 这 些 文件 。 除 了 文本 文件 之 外 ， 还 有 一 种 最 常用 的 数据 来 源 一 数据 库 。 在 关系 型 数据 库 中 ，MySQL 和 PostgreSQL 是 开源 数据 库 的 代表 ;而 在 商业 数据 库 中 ，Oracle、 
SQL Server 则 最 为 著名 ; 在 非 关 系 型 数据 库 中 ， 则 以 文档 型 的 数据 库 MongoDB 最 为 著名 。 还 有 一 个 我 个 人 比较 喜欢 的 全 文 检索 引擎 Elasticsearch， 基 本 上 也 可 以 当 作 一 个 文档 型 的 数据 库 来 使 用 ， 非 常 方 
便 。 


本 章 会 介绍 几 种 常见 的 Python 数据 读 写 模 块 ， 虽 然 不 能 穷尽 所 有 的 应 用 ， 但 使 用 方法 基本 上 大 同 小 异 ， 表 7-1 提 供 了 相应 的 参考 链接 。 


表 7-1 Python 常见 的 外 部 IO 模块 


数据 源 链接 
CSV https://docs.python.org/2/library/csv.html 
EXCEL pandas http://pandas.pydata.org/pandas-docs/version/0.17.1/10min. 
| html#excel 
MYSQL http://mysql-python.sourceforge.net/MySQLdb.html 
MYSQL http://torndb.readthedocs.org/en/latest/# 
POSTGRESQL http://pythonhosted.org/psycopg2/ 
MONGODB http://api.mongodb.org/python/current/ 
ELASTICSERCH http://elasticsearch-py.readthedocs.org/en/latest/ 


7.1 CSV 文件 的 读 写 


本 节 将 会 使 用 Python 标准 库 CSV 模 块 来 处 理 CSV 文 件 。 所 谓 CSV 文 件 ， 就 是 “逗号 分 隔 值 文件 ”的 简称 ， 通 常 来 说 ， 这 个 文件 类 似 于 一 个 表格 的 结构 ， 每 一 行 都 有 相同 的 列 ， 并 且 一 般 使 用 逗号 隔 开 。 
一 个 典型 的 CSV 文 件 类 似 于 下 面 的 形式 : 


PassengerId, Pclass, Name, Sex, Age, SibSp, Parch, Ticket, Fare, Cabin, Embarked 
892,3, "Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q 

893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47,1,0,363272,7,,S 
894,2, "Myles, Mr. Thomas Francis",male, 62,0,0,240276,9.6875,,Q 

895,3, "Wirz, Mr. Albert",male,27,0,0,315154,8.6625,,S 


其 中 第 一 行 是 表 头 ， 其 余 的 行 是 数据 ， 如 果 有 包含 空格 的 字符 串 ， 那 么 一 般 会 使 用 双 引 号 括 起 来 。 


7.1.1 读 取 CSV 文 件 


我 们 可 以 使 用 CSV 模 块 中 的 reader0 方 法 读 取 CSV 文 件 ， 其 中 reader() 的 参数 应 该 是 一 个 文件 描述 符 ， 可 以 参考 下 面 的 代码 : 


# ! /usr/bin/python 
ooding: FE-8 -t= 


from __ future _ import print function 
import csv 


with open('/Users/jilu/Downloads/test.csv', 'r') as fr: 
roOws = Csv.reader (fr) 


for row in rows: 
Print (row) 


之 前 已 经 介绍 过 如 何 使 用 with 语 法 方便 地 获取 文件 描述 符 fr 了 ， 在 读 取 CSV 文 件 之 后 ， 可 以 使 用 迭代 的 方式 获取 其 中 的 每 一 行 数据 。 与 普通 的 迭代 文件 行 不 同 ，CSV 的 每 一 行 数据 都 已 经 被 很 好 地 分 割 
和 格式 化 了 ， 读 者 可 以 使 用 随 书 附送 的 代码 中 的 test.csv 文 件 测试 上 面 的 代码 ， 其 运行 结果 如 下 : 


PassengerId1!， 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', '‘'Parch', 'Ticket', 'Fare', 'Cabin', 'FEmbarked'] 
B92 ‘3', 'Kelly, Mr. James'; ‘male'; '34.5'; "Q's 0, 3309111 '7.8292, 9747 *Q’ 


[ 
[ 
让 ', 'Wilkes, Mrs. James (Ellen Needs)', 'female', '47', a ', PR 
"B93 3 'Wilk 11 dl: le', '47 二 0' 363272 人 | 
['894', '2', Myles; Mr Thomas Francis’, ‘'male’, ‘'62', '0's 0’, "240276'; '9.6875; '’, ‘'Q'] 
【189517 "3 Wirz: Me, Albert'; mwale; 27 ?0 OQ!; '315154', "8.6625"; ty 5’] 
['896', '3', 'Hirvonen, Mrs. Alexander (Helga E Lindqvist)', 'female', '22', '1', '1', '3101298', '12.2875', '', 'S'] 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


将 打印 出 来 的 结果 与 原始 文件 进行 对 比 ， 可 以 发 现 ， 不 仅 原 始 的 行 数据 按照 逗号 分 隔 被 切 分 成 了 列表 ，Name 列 中 的 双 引 号 也 被 去 掉 了 ， 这 就 是 csv 模 块 自动 为 我 们 进行 的 转换 。 当 然 也 可 以 自己 使 用 字 
符 串 方法 split(,) 进 行 切 分 ， 但 可 能 在 初次 尝试 之 后 就 会 发 现 还 需要 去 掉 引 号 。 在 Python 编程 中 ， 我 们 从 来 都 不 提倡 “重复 造 轮子 ” ， 所 以 仍然 建议 面 对 CSV 文 件 时 使 用 专用 的 模块 ， 相 信 我 ， 它 还 会 附送 很 
多 额外 的 好 处 。 


7.1.2 创建 CSV 文 件 


创建 一 个 CSV 文 件 也 很 容易 ， 可 以 使 用 csv 模 块 的 writer() 方 法 创建 一 个 CSV 文 件 操作 符 ， 然 后 再 调用 其 writerow 方 法 进行 逐 行 地 写 入 ， 参 考 下 面 的 代码 : 


with open('./csv tutorial.csv', 'a') as fw: 
writer = csv.writer (fw) 
writer.writerow(["cl", 'c2', 'c3']) 
for x in range(10): 
writer.writerow([x, chrl(ord('a') + x), 'abc']) 


为 了 制造 一 些 变化 ， 上 面 使 用 ord0 和 chr() 函 数 创建 了 一 个 连续 增长 的 字母 序列 ， 并 且 将 其 保存 成 了 文件 ， 打 开 csv_tutorial.csv 这 个 文件 ， 就 可 以 看 到 其 中 的 内 容 为 如 下 形式 : 


人 
0,a,abc 
1,babc 
2,cabc 
3,d,abc 
4,e,abc 
5,f,abc 
6,g1abc 
7,h,abc 
8,i,abc 
9,j,abc 


细心 的 读者 可 能 会 发 现 ， 这 里 的 字符 串 没有 用 双 引号 括 起 来 ， 这 只 是 因为 默认 的 csv.writer() 并 不 会 自动 为 字符 串 增加 双 引号 1， 若 想 要 增加 双 引号 ， 可 以 使 用 下 面 的 代码 : 
writer = csv.writer (fw, quoting=csv.QUOTE NONNUMERIC) 
代 蔡 原来 代码 中 的 : 
writer = csv.writer (fw) 
其 中 csv.QUOTE_NONNUMERIC 代 表 为 所 有 的 非 数 字 类 型 增加 双 引 号 。 现 在 的 结果 将 会 变 为 如 下 的 形式 : 
关于 双 引 号 的 使 用 ， 除 了 QUOTE_NONNUMERIC 这 一 种 模式 之 外 ， 还 有 另外 几 种 模式 ， 完 整 的 列表 可 以 查看 表 7-2。 
表 7-2 CSV 可 以 使 用 的 存储 模式 
CSV 可 以 使 用 的 存储 模式 描述 
QUOTE ALL 为 所 有 的 栏 增加 双 引 号 包围 
QUOTE MINIMAL 仅 为 包含 特殊 符号 的 栏 增加 双 引 号 包围 
QUOTE NONNUMERIC 为 所 有 非 数 字 的 栏 增加 双 引 号 包围 
QUOTE NONE 在 reader() 函数 中 ,表示 不 要 去 掉 数 据 中 的 双 引 号 包围 


[中 增加 双 引 号 的 主要 目的 是 为 了 防止 在 某 一 列 的 字符 串 中 包含 过 号 ， 使 得 切 分 列 的 程序 出 错 。 
四 如 果 你 没有 删除 原来 的 csv_tutorial.csv 文 件 而 直接 执行 程序 ， 那 么 结果 会 是 一 个 包含 两 次 结果 的 csv_tutorial.csv 文 件 ， 因 为 我 们 在 open('/Users/jilu/Downloads/csv_tutorial.csv','a) 中 使 用 了 “a” 模 式 表示 继续 
写 入 ， 如 果 总 是 需要 履 盖 原始 的 数据 请 使 用 “w” 模 式 进行 写 入 。 


7.13， 处 理 方言 


虽然 CSV 格 式 的 文件 是 以 逗号 作为 分 隔 符号 的 文件 ， 但 实际 上 并 没有 一 个 严格 的 定义 要 求 其 必须 用 逗号 。 比 如 Hadoop 中 的 表 文 件 ， 如 果 以 纯 文 本 的 形式 输出 ， 那 么 默认 的 分 隔 符 就 是 “\x01”。 你 也 
可 能 会 见 到 使 用 管道 符 “|” 作为 分 割 符 的 CSV 文 件 ， 我 们 统一 称 这 种 CSV 为 CSV 的 方言 。 


以 上 文 创建 的 CSV 文 件 csv_tutorial.csv 为 例 ， 现 在 将 逗号 改 为 管道 符 ， 并 且 另 存 为 csv_tutorial.pipe.csv， 其 中 的 内 容 如 下 : 


meinwlmc2nrlne3n 
0l"a"l"abc" 
11"b"|"abc" 
21"c"|"abc" 


31"d" |"abe" 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


想 要 读 取 这 个 文件 可 以 参考 下 面 的 代码 : 


csv.register dialect('pipes', delimiter="'|') 
with open('/Users/jilu/Downloads/csv_ tutorial.pipe.csv', 'r') as fr: 
rows = Csv.reader (fr, dialect='pipes') 


for row in rows: 
print (row) 


如 果 使 用 csv 中 的 register_dialect() 函 数 注册 一 个 新 的 方言 ， 命 名 为 “pipes”， 并 且 将 “|” 作 为 分 割 符 ， 那么 上 面 程序 的 执行 结果 将 为 : 


| 
10', ‘a', 1abc'] 
'1', 'b', "abc'] 
1 'c', 'abc'] 
43 1d', rabc'] 
ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


i 
DL 


可 以 看 到 ， 这 确实 可 以 读 取 我 们 自 定义 的 CSV 方 言 。 创 建 自 定义 方言 的 过 程 与 读 取 的 过 程 一 样 ， 只 需要 在 csv.writer0 函 数 中 传 入 一 个 dialect= 'pipes 参数 即 可 ， 在 此 就 不 赣 述 了 。 


7.1.4 ”将 读 取 的 结果 转换 成 字典 


部 分 读者 可 能 还 没有 意识 到 ， 如 果 CSV 文 件 拥 有 大 量 的 栏 ， 那 么 想 要 确认 某 一 个 数据 在 第 几 栏 将 是 一 件 多 么 麻烦 的 事情 。 所 幸 ，CSV 模 块 提供 了 一 种 以 字典 结构 返回 数据 的 方式 ， 即 使 用 CSV 模 块 中 的 
DictReader()， 参 考 下 面 的 代码 : 


with open('/Users/jilu/Downloads/test.csv', 'r') as fr: 
rows = csv.DictReader (fr) 


for row in rows: 
Print (row) 


其 运行 的 结果 如 下 : 


{'Fare': '7.8292', 'Name': 'Kelly, Mr. James', 'FEmbarked': 'Q', 'Age': '34.5', 'Parch': '0', 'Pclass': '3', 'Sex': 'male', 'SibSp': '0', 'PassengerId': '892', 'Ticket': '330911 
{'Fare': '7', 'Name': 'Wilkes, Mrs. James (Ellen Needs)', 'Embarked': 'S', 'Age'; '47', 'Parch': '0', 'Pclass':; '3', 'Sex': 'female', 'SibSp': '1', ‘PassengerId': '893', 'Ticke 
{'Fare': '9.6875', 'Name': 'Myles, Mr. Thomas Francis', ‘Embarked': 'Q', 'Age': '62', 'Parch': '0', 'Pclass'; '2', 'Sex':; 'male', 'SibSp': '0', 'PassengerId': '894', 'Ticket': 


程序 会 自动 将 每 一 行 数 据 组 织 成 一 个 字典 ， 这 样 我 们 就 无 需 关 心 第 几 列 是 什么 数据 了 ， 只 要 使 用 字典 的 键 就 能 获取 我 们 想 要 的 信息 ， 这 是 极为 方便 的 。 


7.2 “Excel 文件 的 读 写 


Excel 是 微软 Office 套 件 中 最 重要 的 工具 之 一 ， 也 是 数据 科学 中 常用 的 图 形 化 工具 。 很 多 人 仍然 习惯 于 使 用 Excel 进 行 数据 分 析 。 本 节 将 学 习 如 何 使 用 Python 读 写 Excel 文 件 ， 以 方便 程序 员 与 数据 分 析 师 
之 间 的 交流 ， 只 要 你 需要 跟 别 人 合作 ， 这 种 交流 几乎 是 不 可 避免 的 。 


下 面 将 使 用 Pandas 提 供 的 方法 来 处 理 Excel 文 件 ， 实 际 上 Pandas 是 通过 集成 xlrd 和 xlwt 来 分 别 完成 读 和 写 Excel 的 工作 的 。 虽 然 我 们 还 没有 正式 地 学 习 过 Pandas (后 面 的 10.2 节 会 专门 学 习 Pandas) ， 
但 是 这 并 不 妨碍 我 们 先 了 解 其 中 的 这 个 功能 ， 读 者 可 以 通过 下 面 的 方式 来 安装 Pandas 的 这 个 模块 : 


$pip install pandas 
$pip install xlrd 
$pip install xlwt 


7.2.1 ” 读 取 Excel 文 件 


Excel 文 件 最 基本 的 组 成 部 分 就 是 Sheet， 一 个 正常 的 Excel 会 拥有 一 个 至 多 个 Sheet， 如 果 没 有 改过 名 字 的 话 ， 应 该 是 Sheet1、Sheet2、Sheet3 等 。 所 以 读 取 Excel 文 件 的 第 一 种 最 基础 的 方法 就 是 使 
Pandas 中 的 read_excel() 方 法 ， 并 且 还 须 制 定 要 读 取 的 文件 名 及 Sheet， 示 例 代码 如 下 : 


# ! /usr/bin/python 

类 -oodhing: utf-8 ~*— 

from future import print function 
import pandas as pd 

from pandas import read excel 


pd.set option('display.max columns', 4) 
pd.set option('display.max rows', 6) 


df = read excel ('/Users/jilu/Downloads/A0202.xls', "Sheet1') 


print (df) 

其 运行 结果 如 下 : 

2-2 全 国 各 民族 分 性 别 、 受 教育 程度 的 6 岁 及 以 上 人 口 Unnamed: 1 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... Unnamed: 23 U 
0 NaN NaN http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... NaN 

1 NaN 单位 : http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... NaN 

2 民 族 6 岁 及 以 放 人 口 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... NaN 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/.. 加 http://www.hzcourse.com/resource/readBook?path= 
60 基诺 族 21014 http://www.hzcourse.com/ resource/readBook?path=/openresources/teach ， ebook/uncompressed/16309/0EBPS/Text/.. 好 

61 其 他 未 识别 的 Re 574451 http://www.hzcourse.com/resource/readBook?path=/openresources/teach 4 ebook/uncompressed/16309/0EBPS/Text/. 这 和 32 

62 外 国人 加 入 中 国 国籍 1360 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 所 


[63 rows x 25 columns] 


可 以 看 到 ， 原 始 的 Excel 文 件 中 有 一 些 多 余 的 空 行 ， 而 且 我 们 也 不 想 在 读 取 的 数据 中 显示 第 一 列 的 序号 ， 那 么 将 读 取 Excel 的 代码 改 为 如 下 的 形式 ;: 


df = read excel ('/Users/jilu/Downloads/A0202.xls', 'Sheetl', index col=0, skiprows=3) 


再 次 运行 之 后 得 到 的 结果 是 


6 岁 及 以 上 人 口 Unnamed: 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... Unnamed: 23 Unnamed: 24 
民 族 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
NaN 合计 男 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 男 女 
总 计 1242546122 633278387 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 2351251 1787334 
汉 族 1140804980 581418089 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 2258424 1697235 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/.. http://www.hzcourse.com/resource/readBook?path=/openres 
基诺 族 21014 10648 http://www.hzcourse.com/resource/readBook?path=/openresources/teach : ebook/uncompressed/16309/0EBPS/Text/.. 人 9 
其 他 未 识别 的 民族 574451 297632 Ed //www.hzcourse. com/resource/readBook?path=/openresources/tEach ebook/uncompressed/16309/0EBPS/Text/. 132 a 
外 国人 加 入 中 国 国籍 的 1360 514 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 5 


一 次 就 正常 多 了 ， 在 read_excel() 函 数 中 使 用 了 index_col 及 skiprows 这 两 个 参数 ， 前 者 是 告诉 程序 哪 一 行 是 序号 行 ， 可 以 隐藏 。 第 二 个 参数 表示 跳 过 Excel 开 头 的 几 行 ， 不 去 读 取 这 些 行 的 信息 。 


与 打开 普通 文件 的 方式 类 似 ， 也 可 以 使 用 上 下 文 管理 器 with 打开 Excel 文 件 ， 如 果 一 个 Excel 有 多 个 Sheet， 则 可 以 使 用 下 面 的 方法 来 打开 : 


with pd.FExcelFile('/Users/jilu/Downloads/A0202.xls') as xls: 
for x in range(l, 2): 
df = read excel (xls, 'Sheet{}'.format (x) , index col=0, skiprows=3) 
print (df) 


其 执行 的 结果 就 不 再 歼 述 了 。 


7.2.2 写 Excel 文 件 


写 Excel 文 件 相对 来 说 就 更 加 简单 一 些 ， 首 先 要 创建 一 个 Pandas 的 DataFrame 的 数据 结构 [1]， 然 后 调用 DataFrame 的 to_excel(0 方 法 ， 参 考 下 面 的 程序 : 


df = pd.DataFrame ([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]], 
index=[0, 1, 2], colums=list ("ABCD")) 
df.to excel ('/Users/jilu/Downloads/test .xls') 


我 们 可 以 使 用 由 Python 列表 组 成 的 列表 四 代表 一 个 表格 ， 每 一 个 外 层 列 表 中 的 元 素 都 对 应 了 Excel 中 的 一 行 ， 除 了 需要 被 保存 的 数据 之 外 ， 还 需要 指明 每 一 行 的 索引 及 每 一 列 的 列 名 。 这 里 遵循 Exce 的 
规则 一 行 索引 使 用 数字 ， 列 名 使 用 大 写字 母 。 最 终 保存 的 文件 test.xls 的 内 容 如 图 7-1 所 示 。 


上 Di Uj = 
插入 ”页 面 布局 公式 数据 审阅 视图 


医 条 件 格式 
[及 套用 表格 格式 * 


[有 单元 格 样式 * 


7-1 Python 写 入 Excel 例 子 


本 章 只 讨论 了 如 何 读 取 和 写 入 Excel 文 件 ， 使 用 Pandas 实 际 上 是 使 用 Pandas 的 DataFrame 的 数据 结构 与 Excel 进 行 交互 的 。DataFrame 是 一 种 与 Excel 完 全 兼容 的 数据 结构 ， 不 仅 看 起 来 相似 ， 甚 至 连 实 
际 的 功能 都 很 相似 (甚至 更 加 强大 ) 。 可 能 有 些 读 者 对 于 DataFrame 的 操作 还 存 有 一 定 的 疑问 ， 因 为 本 章 并 没有 详细 地 讲解 如 何 使 用 DataFrame， 对 此 感 兴趣 的 读者 可 以 提前 阅读 第 10 章 的 内 容 以 了 解 更 多 
关于 DataFrame 的 操作 。 


[由 各 种 不 同 的 方法 可 以 参考 第 10 章 对 应 的 部 分 。 
[中 通常 我 们 称 这 种 结构 为 “列表 的 列表 ”， 因 为 Python 的 列表 中 可 以 容纳 任意 Python 类 型 ， 以 此 类 推 ， 还 有 “字典 的 列表 ”、“ 元 组 的 列表 ”， 等 等 。 


7.3 “MySQL 的 读 写 


MySQL 是 最 常用 的 关系 型 数据 库 之 一 ， 如 果 要 从 事 数据 科学 ， 那 么 几乎 是 不 可 能 绕 开 MySQL 这 一 关 的 。 严 格 来 阅 ，MySQL 也 是 SQL 的 一 种 实现 ， 与 ORACLE、SQL Server 类 似 。 而 且 MySQL 还 是 免费 
开源 的 ， 这 非常 有 利于 我 们 的 学 习 。 为 了 开展 本 节 的 学 习 ， 你 需要 安装 MySQL 数 据 库 ，MySQL 数 据 库 支持 几乎 所 有 的 常见 的 系统 平台 ， 包 括 Mac、Linux、Windows 及 其 他 的 多 种 平台 。 关 于 MySQL 的 下 
载 和 安装 ， 可 以 参考 其 官方 网 站 : http://dev.mysql.com/downloads/mysql/。 当 然 如 果 读 者 有 条 件 ， 也 可 以 使 用 远程 数据 库 ， 这 样 就 不 需要 进行 额外 的 安装 了 ， 具 体 的 情况 可 以 咨询 你 的 网 络 管理 员 (如 
果 有 的 话 ) 。 以 下 的 内 容 假设 读者 已 经 在 本 机 安装 和 启动 了 MySQL 服 务 ， 首 先 来 验证 一 下 MySQL 的 安装 情况 : 


S$mysql --version 


mysql Ver 14.14 Distrib 5.6.22, for osx10.10 (x86 64) using EditLine wrapper 


执行 美元 符号 后 面 的 命令 ， 会 输出 上 面 的 结果 (在 笔者 的 Mac 电 脑 上 是 这 样 的 ) ， 如 果 已 经 得 到 这 样 的 信息 那 就 说 明 MySQL 已 经 正确 地 安装 了 。 


接 下 来 需要 进入 MySQL shell 来 查看 mysq| 的 状态 : 


$ mysql -u test -p 


执行 上 面 的 命令 ，-u 后 面 是 你 在 安装 MySQL 时 指定 的 用 户 名 ， 在 运行 完 这 个 命令 之 后 ， 命 令 行 将 会 提示 输入 密码 ， 只 要 输入 安装 MySQL 时 设 定 的 密码 即 可 ， 接 下 来 将 会 显示 MySQL 的 欢迎 信息 ， 具 体 
如 下 : 


Welcome to the MySQL monitor. Commands end with ; or \g. 

Your MySQL connection id is 28 

Server version: 5.7.9 MySQL Community Server (GPL) 

Copyright (c) 2000, 2014, Oracle and/or its affiliates. All rights reserved. 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 

Owners. 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement. 


mysql> 


迎 信息 的 最 后 一 行 “mysql>” 即 为 mysq 的 命令 提示 符 ， 从 现在 开始 ， 我 们 就 需要 使 用 SQL 命令 了 ， 那 么 ， 下 面 先 来 大 致 查看 一 下 MySQL 的 状态 ， 使 用 show 命 令 可 以 查看 我 们 一 共 拥有 多 少 个 数据 


库 : 
mysql> Show databases; 
二 -一 -一 一- 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Database | 
二 -一 -一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| information schema | 
| default 加 | 
| mysgl | 
| performance schema | 
| sys | 
十 -一 一 一 一 一- 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


5 rows in set (0.00 sec) 


SQL 命令 必须 以 分 号 结尾 ， 请 不 要 忘记 这 一 点 。 从 执行 的 结果 来 看 ， 我 们 的 系统 中 已 经 存在 几 个 默认 的 数据 库 了 ， 想 要 使 用 某 个 数据 库 可 以 使 用 use 命 令 ， 然 后 再 用 show 命 令 查看 有 几 个 数据 库 表格 ， 
示例 如 下 : 


mysql> use default 
Reading table information for completion of table and colum names 
You can turn off this feature to get a quicker startup with -A 


Database changed 
mysql> show tables; 


十 -一 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| Tables_in_default | 
二 -一 -一 一 一- 一- 一 -一 一 一 一 一 一 一 十 
| ipdata | 
+------------------- 十 


1 row in set (0.00 sec) 


这 里 已 经 创建 了 一 个 数据 库 表格 ， 大 家 可 以 尝试 在 mysql> 后 执行 下 面 的 SQL 语句 创建 一 个 用 于 本 节 测试 之 用 的 数据 库 站 : 


CREATE TABLE ‘ipdata 1000 ”人 
‘id int(11) NOT NULL AUTO_INCREMENT, 
“startip”bigint (20) DEFAULT NULL, 
“endip. bigint(20) DEFAULT NULL, 
‘country” varchar (45) DEFAULT NULL, 
‘carrier’ varchar (200) DEFAULT NULL, 
PRIMARY KEY (“id’), 
KEY “sip (‘startip’), 
KEY ‘eip. (‘endip’) 
) ENGINE=InnoDB AUTO INCREMENT=1001 DEFAULT CHARSET=utf8; 


完成 上 述 操作 之 后 ， 接 下 来 就 可 以 继续 学 习 了 ， 为 了 练习 本 节 的 内 容 ， 读 者 还 需要 安装 下 列 Python 第 三 方 库 : 


$pip install MySQL-python 
$pip install torndb 


[由 这 条 命令 包含 在 附送 代码 的 ipdata 1000.sql 文 件 中 。 


7.3.1 写 入 MySQL 


本 节 与 前 两 节 的 描述 顺序 略 有 不 同 ， 这 里 首先 会 讲解 如 何 写 入 数据 。 因 为 与 CSV 文 件 和 Excel 不 同 ，MySQL 的 数据 文件 没 办 法 通过 快捷 的 方式 进行 分 发 ， 所 以 只 能 先 通过 学 习 写 入 的 方式 为 数据 库 表 中 


首先 我 们 要 从 随 书 附送 的 代码 中 获取 将 要 写 入 数据 库 中 的 数据 ， 如 下 : 


startip,endip, country, carrier 
0,16777215, IANA, 保留 地 址 
16777216,16777491, 澳大利亚 , C288 .NET 
16777472, 16778239, 福建 省 , 电信 
16778240,16779263, 澳大利亚 ,C288 .NET 
16779264,16781311, 广东 省 ,电信 
16781312,16785407, 日 本 , Beacon 服 务 器 
16785408, 16793599; 广东 省 ,电信 


这 是 一 个 1P 地 理 位 置 的 列表 ， 所 有 的 IP 地 址 都 经 过 了 十 进 制 转换 ， 以 节约 空间 。 可 以 使 用 前 面 介绍 的 知识 来 读 取 这 个 文件 ， 并 将 每 一 行 转换 成 一 个 SQL 插 入 语句 ， 示 例如 下 : 


with open('/Users/jilu/Downloads/ipdata.csv', 'r') as fr: 
sql = 'insert into ipdata 1000 ({}) values ({1)) 
roOws = Csv.reader (fr) 加 
header = rows.next () 
for row in rows: 


print (Sql .format('，' .join (header) 


1 


1 .join (row) )) 


上 面 的 代码 通过 rows.next0 的 方法 获取 了 原始 CSV 中 第 一 行 的 表 头 ， 然 后 使 用 字符 串 格式 化 的 方法 生成 了 若干 SQL， 其 执行 的 结果 如 下 : 


insert 
insert 
insert 
insert 


into 
into 
into 
into 


ipdata 1000 
ipdata 1000 
ipdata 1000 
ipdata 1000 


startip, endip, country, carrier 


values (0，16777215，IANA， 保 留 地 址 ) 


values 


( ) ( 
(startip, endip, country, carrier) values (16777216，16777471， 澳 大 利 亚 ，C288.NET) 
( ) ( 


startip, endip, country, carrier 


16777472，16778239， 福 建 省 ， 电 信 ) 


(startip, endip, country, carrier) values (16778240，16779263， 澳 大 利 亚 ，C288.NET) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


这 只 是 一 个 简 和 


过 字符 串 拼接 SQL 非常 容易 被 SQL 注入 攻击 。 这 号 


的 SQL 示例 ， 实 际 上 这 个 SQL 示例 在 某 种 程度 上 还 是 错误 的 ， 因 为 SQL 中 的 字符 串 需 要 使 用 双 引 号 括 起 来 ， 当 然 这 并 不 重要 ， 我 们 不 会 使 
只 是 借 此 简单 地 讲解 一 下 SQL 插入 语句 的 结构 ， 其 结构 可 以 抽象 成 下 面 的 样子 : 


这 种 方式 向 MySQL 中 插入 数据 ， 因 为 直接 通 


insert into 表 名 (字段 名 列表 ) values ( 值 列表 ) 


正确 插入 数据 的 方式 应 该 如 下 面 的 代码 一 样 : 


# ! /usr/bin/python 
# =*= coding: utf-8 ~*~ 


from 


mysql = 


_ future ”import print function 
import csv 
import torndb 


# 连接 参数 


{ 


"host": 
Tport": 


"database 
"password! 


"localhost" 
"3306", 


"test", 


"charset": "utf8" 


} 


# 数据 库 连接 


db = torndb.Connection( 


host=mysql ["host"] + ":" + mysql["port"], 


’ 


"default", 
"123456", 


database=mysql["database"], 
user=mysql ["user"], 
password=mysql ["password"], 
charset="utf8") 


with open('/Users/jilu/Downloads/ipdata.csv', 
sql = 'insert into ipdata 1000 ({}) values 


IrOws = Csv.reader (fr) 
header = Tows .next () 
for row in rows: 


这 里 的 SQL 语 句 与 上 例 中 的 SQL 语 句 是 一 致 
建立 的 数据 库 连 接 ， 如 果 大 家 是 参考 本 小 节 进 行 的 试验 ,局 
写 操作 之 前 都 需要 进行 数 


为 了 更 加 高 效 地 插入 数据 ， 可 以 使 


with open('/Users/jilu/Downloads/ipdata.csv', 


_sql = sql.format(', 


db.insert (_sql, *row) 


居 库 的 连接 ， 可 以 使 


' .join (header), 


的 ， 但 是 


roendb.Connection() 创 建 一 个 数据 库 连 接 。 


insertmany0 函 数 同时 插入 多 行 数据 ， 这 里 仪 需要 将 with 语法 块 中 的 代码 修改 成 下 


'.join(['%s'] * len (row))) 


体 的 数据 及 与 SQL 的 拼接 将 由 程序 自动 完成 ， 我 们 只 需要 对 每 一 行 的 数据 调 有 


一 次 db.insert0 函 数 即 可 。 在 该 程序 中 ，db 来 自 于 从 torndb 模 块 中 


p 么 在 mysql 这 个 字典 之 中 仅 需 要 关心 user 及 password 这 两 个 参数 


可 ， 前 者 是 在 安装 数据 库 时 输入 的 


四 


ry as Ers 


sql = 'insert into ipdata 1000 ({}) values ({})" 
roOws = Csv.reader (fr) 
header = Tows .next () 


_sql = sql.format (', '.join (header), 


1 


qb.insertmany (_sql, rows) 


'.join(['%s'] * len (header))) 


的 形式 即 可 : 


户 名 ， 后 者 是 密码 。 任 何 数据 库 在 实施 读 


通过 上 面 的 代码 可 以 得 到 和 第 一 个 版 本 同样 的 结果 ， 但 是 速度 更 快 了 ( 当 数 


7.3.2 读 取 MySQL 


如 果 读 者 已 经 有 了 一 个 拥有 数 


过 一 个 新 的 SQL 来 实现 : 


sql * from 表 名 


局 很 多 时 ) 。7.3.2 节 将 介绍 如 何 读 取 MySQL 数 据 。 


居 的 表 ， 或 者 按照 7.3.1 节 的 步骤 插入 了 一 些 数据 ， 那 么 已 经 存在 一 个 数据 库 连 接 db 了 ， 下 面 的 示例 仍然 需 


使 用 这 


居 库 进行 连接 。 想 


获取 数据 库 表 中 的 数据 需要 通 


下 面 就 使 


这 个 语句 来 获取 数据 库 中 的 数据 [0]， 参 考 下 面 的 代码 : 


rows = db.query('select * from ipdata 1000') 


for row in rows: 
print (row) 


其 运行 之 后 的 结果 为 : 
{'startip': OL, 'endip' 
{'startip': 16777216L, 


: 16777215L, 'carrier': u'\u4fdd\u7559\u5730\u5740', ‘id': 1L, 'country': u'IANA'} 


'endip': 16777471L, 


'Carrier': u'CZ88.NET', 'id': 2L, 'country': u'\u6fb3\u5927\u5229\u4e9a'} 


{'startip': 16777472L, 'endip': 16778239L, 'carrier': u'\u7535\u4fel', 'id': 3L, 'country': u'\u798f\u5efa\u7701'} 
1id': 4L, 'country': u'\u6fb3\u5927\u5229\u4e9a'} 
{'startip': 16779264L, 'endip': 16781311L, 'carrier': u'\u7535\u4fel', 'id': 5L, 'country': u'\u5e7f\u4elc\u7701'} 
{'startip': 16781312L, '‘'endip': 16785407L, 'carrier': u'Beacon\u670d\u52al\u5668', "id': 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


{'startip': 16778240L, '‘'endip': 16779263L, 'carrier': u'CZ88.NET', 


6L， 


'country': u'\u65e5\u672c'} 


结果 并 不 是 类 似 于 CSV 的 表格 结构 ， 而 是 每 一 行 都 是 一 个 Python 字 典 ， 这 是 使 用 torndb 这 个 MySQL 客 户 端的 优势 ， 就 像 前面 在 讲解 CSV 读 取 时 提 到 的 ， 如 果 能 将 读 取 数 


会 对 后 续 数据 的 操作 提供 极 大 的 便利 ， 尤 其 是 在 原始 数据 列 非常 多 的 情况 下 。 


四 大 家 需要 理解 这 并 不 是 一 本 讲解 MySQL 的 书 ， 所 以 所 涉及 的 SQL 只 能 是 最 简单 的 形式 ， 仅 为 了 演示 如 何 使 用 Python 获取 数据 库 中 的 内 容 。 


居 的 结果 转换 成 Python 字典 将 


第 8 章 ”统计 编程 


“统计 学 是 最 好 学 的 数学 分 支 ” ， 虽 然 可 能 会 有 部 分 读者 不 赞同 这 点 ， 不 过 笔者 还 是 希望 能 借 此 让 大 家 放下 戒心 来 学 习 本 章 的 内 容 。 统 计 学 之 所 以 容易 入 门 ， 最 主要 的 原因 在 于 它 是 源 自 于 生活 的 一 门 
学 科 ， 在 古 希 腊 ， 统 计 学 用 于 统计 人 口 和 农业 产量 ， 即 使 是 在 现代 ， 很 多 地 方 也 会 用 到 统计 学 ， 比 如 购物 时 计算 平均 价格 ， 投 票 时 统计 得 票 率 等 ， 故 而 大 家 对 于 “ 正 态 分 布 ”这 个 概念 已 比较 熟悉 。 计 算 概 
率 及 贝 叶 斯 方法 虽然 稍 有 难度 ， 但 也 都 曾 编 进 中 学 课本 ， 可 以 说 关于 统计 的 知识 ， 每 个 人 在 一 定 程度 上 都 会 有 所 掌握 。 本 章 将 带领 读者 回忆 一 下 这 部 分 内 容 。 


另外 本 章 还 会 讲解 数据 可 视 化 的 部 分 内 容 ， 这 部 分 主要 使 用 matplotlib 库 中 的 pyplot 模 块 ， 所 以 请 在 开始 这 个 章节 的 学 习 之 前 ， 确 保 你 的 计算 机 已 经 安装 了 matplotlib 库 ， 可 以 通过 下 面 的 代码 进行 
装 : 


$pip install matplotlib 


8.1 ”描述 性 统计 


均值 、 中 位 数 、 方 差 作为 最 基本 的 描述 性 统计 概念 ， 相 信 大 家 是 再 熟悉 不 过 的 了 ， 下 面 就 通过 实例 来 简单 地 复习 一 下 。 


8.1.1 人口 普查 数据 


本 节 将 以 “中 华人 民 共 和 国 国家 统计 局 ”发 布 的 关于 第 六 次 人 口 普查 的 数据 为 基础 来 进行 实例 讲解 。 第 六 次 全 国人 口 普查 截止 于 2010 年 11 月 1 日 ， 主 要 调查 人 口 和 住户 的 基本 情况 ， 内 容 包括 : 性 别 、 
年 龄 、 民 族 、 受 教育 程度 、 行 业 、 职 业 、 迁 移 流动 、 社 会 保障 、 婚 姻 生 育 、 死 亡 、 住 房 情 况 等 。 人 口 普 查 的 对 象 是 在 中 华人 民 共和 国 (不 包括 香港 、 澳 门 和 台湾 地 区 ) 境内 居住 的 自然 人 。 


读者 可 通过 访问 国家 统计 局 官方 网 站 http://www.stats.gov.cn/tjsj/pcsj/ 来 下 载 本 节 将 会 用 到 的 数据 ， 首 先 ， 在 该 网 站 选择 第 六 次 人 口 普查 数据 ， 如 图 8-1 所 示 。 


GC 1 www.stats.gov.cn/tisj/pesj/ 


(六 中 华人 民 共和 国 国家 统计 局 


National Bureau of Statistics of the People's Republic of China 


走 近 国家 统计 篇 统计 最 新 发 页 统计 统计 动态 统 贡 法 计 百科 统计 网 上 办 事 
巩 构 职能 数据 合 询 通知 公告 壕 计 词 具 统计 党 询 


流 计 法 规 数据 第 南 负片 新 闻 撤 见 问题 解答 局 长 信箱 


| 当前 位 置 > 首页 > 统计 效 扎 > 车 查 数 据 


[二 


人 口 关 查 

经 济 普查 

农业 普查 第 一 次 农业 晋 全 
R&D 资源 清查 第 二 次 R&D 资源 清查 

工业 谷 坦 

三 产 普 查 


基本 单位 普查 


图 8-1 ”下载 所 需 的 数据 一 


然后 选用 “第 一 部 分 全 部 数据 资料 ”中 的 “第 二 卷 民族 ”中 的 “2-1 全 国 各 民族 分 年 龄 、 性 别 的 人 口 ” 的 数据 ， 如 图 8-2 所 示 。 


这 样 会 下 载 到 一 个 名 为 “A0201.xls” 的 Excel 文 件 。 前 面 已 经 学 习 过 如 何 从 Excel 中 提取 我 们 所 需要 的 信息 ， 读 者 可 以 自己 尝试 解析 这 个 Excel 文 件 ， 不 过 为 了 方便 本 章 的 学 习 ， 这 里 会 提供 一 个 标准 的 参 
考 程序 (1， 如 下 : 


# ! /usr/bin/python 
# =*#~ Coding: utf-8 ~*-— 


from _ future import print function 
import pandas as pd 

from collections import OrderedDict 
import sys 


reload (sys) 
sys.setdefaultencoding ("utf-8") 


def read excel (): 


mun 读 取 人 口 普查 分 民族 /年 龄 /性 别 统计 


excel content = pd.read excel ('/Users/jilu/Downloads/A0201.xls', 
skiprows=2) 


race list = excel content.irow(0) [1:] [::3] .tolist() 
# 去 掉 字 符 中 间 的 空格 
age list = map(lambda x: str(x).replace(' ', ''), 
excel content.icol (0) [2:] .tolist()) 
excel_ content = pd.read excel ('/Users/jilu/Downloads/A0201.xls', 
skiprows=4) 
def get num(lines): 
ret dict = OrderedDict () 
for k, v in lines.to dict () .items () : 
new v dict = OrderedDict () 
for vk, vv in V.items () : 
new V dict[age list[int (vk)]] = vv 
ret dict[k.split('.'， 1) [0]] = new _v_dict # 将 每 一 列表 头 中 "." 号 后 面 的 字符 去 掉 
return ret dict 


result dict = OrderedDict () 
for i, x in enumerate (range (1, 178, 3)): 


ids = [x, x + 1, x + 2] 
race list[i] = race list[i].replace(' ', '') 
result dict[race list[i]] = get numl(excel content.icol (ids)) 


return result dict 


if name =’ min _': 


import json 
print (json.dumps (read excel (), ensure ascii=False, indent=4)) 


运行 结果 如 下 : 


人 
"总 计 ": 650481765， 
"0-4 岁 ": 34470044， 


"Omy :区 3252357 
"1": 7082982, 
"2": 7109678, 
?3393 5978314; 
"4": 6973835, 


"5-9 岁 ": 32416884, 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


€ GCG! [ www.stats.gov.cn/tjsi/pcsj/rkpc/6rp/indexce.htm 


务 院 人 口 普查 办 公 室 久 中 国 2010 年 三 \ 


国家 统计 局 人 口 和 就 业 统计 司 > | Xman 


中 国 统计 出 版 社 @ 版 权 所 有 
未 经 许可 ， 本 书 的 任何 部 分 不 准 以 任何 方式 
在 世界 任何 地 区 以 任何 文字 翻印 、 持 贝 、 仿 制 或 转载 。 


区 第 一 部 分 全 部 数据 资料 
使 第 一 卷 概要 
名 人 Se 中 国 2010 年 EC 
by 族 分 年 龄 、 性 人 口 普 查 资料 中 国 2010 年 
” ” 别 的 人 口 
上 司 2-2 全 国 各 民 
族 分 性 别 、 受 
教育 程度 的 6 
岁 及 以 上 和 人口 


使 第 三 卷 年 龄 
合 第 四 卷 受 教育 程度 
合 第 五 卷 家 庭 
使 第 六 卷 死亡 
使 第 七 卷 户口 登 i 忆 状况 
使 第 八 卷 住房 
铭 第 二 部 分 长 表 数 据 资料 
金 附录 


图 8-2 下载 所 需 的 数据 二 


现在 将 原来 的 二 维 表格 构建 成 字典 的 结构 ， 最 外 层 的 字典 就 是 原始 表格 的 第 一 行 ， 即 “合计 、 汉 族 、 蒙 古 族 ”这 一 行 ， 如 图 8-3 所 示 。 


A<| Av 


B | 天 jj 于 国信 


友 。2-1 全 国 各 民族 分 年 龄 、 
B C D 


2-1 全 国 各 民族 分 年 龄 、 性 别 的 人 口 


1332810869 650481765 
75532610 34470044 
13786434 6325235 
15657955 7082982 
15617375 7109678 
15250805 6978314 
15220041 6973835 
70881549 32416884 
14732137 6743986 
14804470 6770018 
13429161 6136861 
13666956 6243397 
14248825 6522622 
74908462 34641185 
14454357 6623549 
13935714 6413156 
15399559 7110572 
15225032 
15893800 
99889114 


1 
2 | 
3 
4 
5 
6 
7 
8 
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国 A0201 
视图 
其 | 条 件 格式 
| 三 及 疼 用 表格 格式 * 
本 


性 别 的 人 口 
E 


abc v 
A 


1220844520 595811672 
66938873 30448687 
12127390 5550982 
13885592 6257077 
13851851 6284135 
13538898 6175418 
13535142 7354067 6161075 
62749323 34166118 28583205 
13100667 7124573 5976094 
13123274 7144635 5978639 
11836935 6450812 5386123 
12081219 6586741 5494478 
12607228 6859357 5747871 
66520113 35872215 30547898 
12784288 6951209 5833079 
12334105 6681873 
13653513 7373959 
13542426 7281270 
14205781 7583904 

47170787 


图 8-3 ”数据 概览 


第 二 级 字典 的 键 是 每 一 个 民族 下 所 包含 的 三 类 : 小 计 、 男 、 女 (在 合计 中 ， 没 有 小 计 ， 而 是 合计 ) 。 最 后 一 级 字典 的 键 就 是 表格 左 侧 的 表 头 : 总 计 、0 ~ 4 岁 、0 等 。 需 要 注意 的 是 ， 这 个 表格 的 左 侧 表 


头 中 每 隔 5 岁 就 会 有 一 个 年 龄 段 的 小 计 ， 在 后 文 的 计算 中 ， 请 勿 本 


[由 这 个 程序 需要 依赖 Pandas 这 个 Python 的 第 三 方 库 来 处 理 Excel 文 


8.1.2 ”均值 和 中 位 数 


E 复 计数 ， 可 以 在 遍历 这 层 字 典 时 使 用 字典 键 的 .isdigit0 方 法 来 进行 区 分 。 


件 ， 如 果 读 者 没有 学 习 第 7 章 而 直接 阅读 本 章 ， 那 么 可 以 通过 pip install pandas 安 装 这 个 依赖 。 


如 果 有 一 个 包含 有 n 个 值 的 样本 x， 那 么 这 个 样本 的 均值 就 等 于 这 些 值 的 总 和 除 以 样本 的 数量 。 对 于 均值 ， 大 家 应 该 很 容易 理解 ， 比 如 我 买 了 1 干 克 葡 萄 ， 总 共 100 粒 ， 那 么 平均 每 一 粒 葡 萄 就 是 10 克 。 


衡量 葡萄 的 重量 时 ， 使 用 均值 看 起 来 是 合理 的 ， 但 是 衡量 一 个 城市 人 民 的 收入 水 平时 ， 均 值 似 乎 就 会 有 一 点 点 不 公平 ， 因 为 少数 富 人 会 把 平均 值 拉 高 ， 这 个 时 候 就 需要 使 用 中 位 数 了 。 顾 名 思 义 ， 中 位 
数 就 是 将 样本 中 的 所 有 值 按照 从 大 到 小 的 顺序 排列 ， 取 最 中 间 位 置 的 那个 值 。 而 且 全 部 的 样本 中 刚好 一 半 的 值 比 中 位 数 大 ， 一 半 的 数 比 中 位 数 小 。 因 为 富 人 的 比例 可 能 相当 低 ， 所 以 他 们 的 收入 几乎 不 会 影 


响 中 位 数 的 取 值 。 


在 解释 完了 均值 和 中 位 数 的 概念 之 后 ， 让 我 们 使 用 人 口 普查 


的 例子 来 演示 一 下 ， 在 stats_ tutorial. py 文件 中 增加 下 面 的 代码 []: 


def calc _mean (d) : 
total = 0 
total age = 0 
for age, count in d.items () : 
if age.isdigit() : 

total += count 

total age += int (age) * count 
return total age / float (total) 


if name 一， main _': 
d = read excel () 
for t in [ui 合计" vw" 男 "un" 妇 *]3 
mean count = calc mean(d.get (u" 合 计 ") .get (t)) 
print ("{} 人 口 平均 年 龄 " .format (t) ，mean_count) 


下 面 分 别 按照 全 部 人 口 ， 并 分 男女 统计 平均 年 龄 ， 其 结果 如 下 : 


合计 人 口 平均 年 龄 35. 6418422815 
男人 口 平 均 年 龄 35.1097775125 
女人 口 平均 年 龄 36.1999727351 


从 这 个 结果 上 看 ， 我 国 女 同胞 为 平均 寿命 做 出 了 更 多 的 贡献 


， 而 且 女 性 的 平均 年 龄 要 比 男 性 的 长 1 年 还 多 一 点 点 。 下 面 再 从 中 位 数 的 角度 来 看 一 看 结果 有 没有 什么 变化 ， 参 考 如 下 代码 : 


def calc median (d) : 
total = d.get ("总 计 ") 
half total = total / 2.0 
count total = 0 
for age, count in d.items(): 
if age.isdigit() : 
count _ total += count 
if count _ total > half total: 
break 
return age 


if name ==’ min _': 
d = read excel () 
for t in [u" 合 计 "，u" 男 "，u" 女 "]: 


median count = calc median (d.get (u" 合 计 ") .get (t) ) 
print (™{} 人 口中 位 数 年 龄 ", format (t) ，median_count) 


上 面 代码 运行 的 结果 如 下 : 


合计 人 口中 位 数 年 龄 35 
男人 口中 位 数 年 龄 35 
女人 口中 位 数 年 龄 36 


从 结果 上 来 看 ， 并 没有 太 大 的 变化 ， 女 性 人 口 仍然 在 年 龄 上 占有 1 年 的 优势 。 


上 证 _name_ ==' main “语句 只 能 有 一 个 ， 所 以 读者 应 当 把 原先 的 那个 删 掉 。 


8.1.3 方差 和 标 ) 


在 统计 全 国人 


平均 年 龄 时 ， 使 用 均值 及 中 位 数 就 能 够 很 客观 地 反应 真实 的 情况 ， 不 过 当 我 们 统计 各 民族 人 口 数 时 ， 很 明显 ， 均 值 和 中 位 数 都 无 法 给 出 合理 的 解释 ， 


总 计 12 亿 多 一 点 ， 占 据 了 绝 大 部 分 人 口 数 ， 而 有 些 人 口 较 少 的 民族 仅 有 数 干 人 ， 这 时 就 需要 通过 方差 来 进行 统计 ， 因 为 方差 反映 的 是 分 散 的 情况 ， 方 差 的 计算 公式 如 下 : 


stats_tutorial.py 中 增加 如 下 代码 : 


因为 均值 是 反映 集中 的 趋势 。 汉 族 


其 中 n 是 样本 数 ，x 是 每 一 个 样本 值 ，u 是 这 些 样本 的 均值 。 而 方差 的 平方 根 就 称 为 标准 差 。 为 了 计算 方便 ， 我 们 需要 重新 构建 数据 ， 将 每 个 民族 小 计 、 男 、 女 的 人 口 数 分 别提 取出 来 。 实 现 该 功能 可 在 


def get _ race num() : 
from collections import defaultdict 
d = read excel () 
cc = defaultdict (list) 
for t in [ut 小 计 "，w" 男 "wn" 家"]3 
for k, Vv in d.items(): 
if k 一 u" 合 计 "; 
continue 
cc[t] .append( (k，v.get (t) .get ("总 计 "))) 
race num dict = OrderedDict () 
for K，V in cc.items () : 
race num dict[k] = dict(v) 


return race num dict 


上 面 的 代码 可 以 把 我 们 从 Excel 中 提取 出 来 的 数据 转换 成 下 面 的 格式 : 


nm 女 "3 
" 达 翰 尔 族 ": 67126.0， 
"哈尼 族 ": 797562， 
" 殖 巴 族 ": 1879.0， 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


二 

" 达 圭 尔 族 ": 64866.0， 
"哈尼 族 ": 863370， 
" 歼 巴 族 ": 1803.0， 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


jy 

Wt Ff 
" 达 坦 尔 族 ": 131992， 
"哈尼 族 ": 1660932， 
" 政 巴 族 ": 3682.0， 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


"白族 ": 1933510，, 
" 怒 族 "; 37523 


与 计算 均值 和 中 位 数 一 样 ， 先 来 创建 一 个 函数 用 于 计算 方 


def calc variance(d): 
mean = sum(d.values()) / float (len(d.values())) 
total = 0 
for k，V in d.items () : 
total += (Vv ~ mean) ** 2 
return total / float(len(d.values ())) 


if name 一 7 main ': 


import math 


d = get_race_num() 

for k，V in d.items () : 
var = calc variance (V) 
std = math.sqrt (var) 
print (k, var, std) 


运行 结果 如 下 [1]: 


女 5.99870690503e+15 77451319.5822 
男 6.60156924257e+15 81250041.4927 
小 计 2.51861200753e+16 158701354.989 


0 


也 可 以 尝试 在 get_race_num() 函 数 的 if k==u" 合 计 " 这 一 行 增加 or k==u" 汉 族 "， 以 排除 汉族 


大 人 口 数量 的 影响 ， 再 次 运行 之 后 的 结果 如 下 : 


女 3.09300910852e+12 1758695.28586 
男 3.41196025133e+12 1847149.22281 
小 计 1.30001535918e+13 3605572.57476 


这 次 的 方差 和 标准 差 都 小 了 不 少 ， 因 为 样本 的 离散 度 减 小 了 ， 所 以 方差 和 标准 差 也 减 小 了 。 需 
年 龄 的 最 大 跨度 也 不 过 100 岁 ， 其 产生 的 方差 必然 是 很 小 的 。 


注意 的 是 ， 在 不 同 的 单位 之 间 进 行 方差 比较 是 没有 意义 的 ， 比 如 比较 人 口 


数 的 方差 和 年 龄 的 方差 ， 


因为 


[1 请 注意 结果 中 末尾 的 e+15 是 科学 计数 法 ， 代 表 10**15 ( “**” 两 个 连续 的 星 号 几乎 在 任何 一 种 编程 语言 中 都 代表 乘 方 的 意思 ， 所 以 10**15 代 表 10 的 15 次 方 ) 。 


8.1.4 分 布 


虽然 简单 的 均值 或 方差 能 够 在 一 定 程度 上 反应 数据 趋势 ， 但 也 可 能 掩盖 了 某 些 不 易 察觉 的 情况 ， 这 个 时 候 就 需要 使 
制 直方 图 ， 在 stats_tutorial.py 中 追加 下 列 代码 即 可 实现 。 


分 布 这 个 工具 了 ， 而 能 够 展现 分 布 的 最 好 的 工具 就 是 直方 


图 。 本 节 将 使 用 pylab 来 绘 


if _ name 


'_ min _': 


import matplotlib.pyplot as plt 


d = read_ excel () 
men_num = d.get (u" 合 计 ") .get (u" 男 ") 


women_num = d.get (u" 合 计 ") .get (u' 


bottom = [0] * 100 
color list = ['b', 'y'] 
p list = [] 
0 item in enumerate([men num, women num]): 
dr = OrderedDict ([(int(k), int(v)) for k, v in item.items() if k.isdigit()]) 
age list, num list = dr.keys(), dr.values() 
p= plt.barl(age list, num list, bottom=bottom, color=color list[i]) 
bottom = num list 
p_list.append (p) 
plt.ylabel ('Population') 
Plt.xlabel ('Age') 
plt.title(' 各 年 龄 段 人 口 分 布 ') 


For ds 


女 ") 


plt.legend((p list[0] [0], p_list[1] [0]), ('Men', 
Plt.show() 


'Women' ) ) 


上 面 将 全 国 


Population 


30 1e7 


2 


各 年 龄 段 的 总 人 口 
一 代 。 那 么 30 岁 左右 的 波 谷 又 是 怎么 回 导 
那 一 代 人 的 基数 比较 少 ， 


其 运行 结果 如 图 8-4 所 示 。 


呢 ? 原来 是 1982 抹 


20 


The Distribution of Population 


i Men 


巴 | Women 


40 60 80 


Age 


图 8-4 ”数值 的 直方 


数 [1 按 男性 和 女性 的 分 类 形式 分 别 绘制 到 了 图 8-4 中 。 从 图 8-4 中 可 以 明显 地 看 出 ， 截 止 到 2011 年 ，20 岁 以 下 的 人 口 是 比 较 少 的 ， 因 
FE“ 计划 生育 ”被 定 为 基本 国策 ， 那 个 时 期 是 把 关 比 较 严 的 时 期 ， 因 此 人 口 出 生 较 少 。 而 之 后 又 有 所 反弹 ， 直 到 最 近 十 一 二 年 。 由 于 当年 计划 生育 
因此 他 们 的 后 代 出 生 必 然 也 会 减少 ， 也 就 造成 了 10 岁 左右 的 波 谷 。 这 就 是 我 国 20 岁 以 下 人 口 较 少 的 原因 。 


100 


为 这 一 代 人 是 受 计划 生育 影响 比较 大 的 


图 8-4 是 直 


接 使 


数 过 于 


每 个 年 龄 段 占 总 人 


的 比例 这 个 单位 来 绘制 直 


“频数 ”绘制 的 直方 图 


， 由 于 人 


巨大 ，y 轴 的 单位 只 能 以 科学 技术 法 来 表示 。 事 实 上 ， 还 可 以 将 频数 进行 “ 归 一 化 ”， 然 后 使 F 


方 图 。 要 想 实现 此 方式 ， 需 要 在 stats_tutorial.py 中 增加 下 面 这 个 函数 : 


def calc pmf (data list): 
ret list = [] 
total = sum(data list) 
for item in data list: 


ret list.append (float (item) / total) 
return ret list 


这 个 函数 很 简单 ， 只 是 把 频数 换算 为 比例 了 ， 然 后 在 源 代码 中 增加 了 一 行 : 


for i, item in enumerate ( [men num, women num] ) : 


dr = OrderedDict ([ (int (k), 
age list, num list = dr.keys(), dr.values() 

num list = calc pmf (num list) # 新 增 

p= plt.barl(age list, num list, bottom=bottom, color=color list[i]) 


bottom = num list 
p_list.append (p) 


int(v)) for k, v in item.items() if k.isdigit()]) 


运行 的 结果 如 图 8-5 所 示 。 


0.045 


0.040 


Population 


新 绘制 的 直方 图 向 (图 8-5) 称 为 概率 质量 函数 (PMF) ， 将 其 称 为 函数 可 能 会 使 部 分 读者 感到 迷惑 ， 不 过 在 数学 中 ， 所 谓 函 数 就 是 将 一 组 值 映射 到 另外 一 组 值 上 ， 而 


其 概率 上 的 映射 。 


可 视 化 的 内 容 。 


8.2 数据 可 视 化 入 门 


在 8.1 节 中 ， 已 经 初步 见识 过 使 


8.2.1 pyplot 基 础 


The Distribution 


Python 绘 图 是 一 件 多 么 简单 的 事情 了 。 只 要 几 行 
Python 中 matplotlib 库 的 pyplot 模 块 绘制 最 基本 的 图 形 ， 以 及 柱状 图 、 折 线 图 、 饼 图 、 


图 8-5 ”概率 质量 函数 直方 


[由 请 注意 ， 这 里 使 用 的 是 第 六 次 人 口 普查 的 数据 ， 也 就 是 这 些 人 的 年 龄 是 截止 于 2011 年 的 。 
[中 注意 ,7 轴 的 坐标 值 单 位 有 所 改变 。 


代码 就 可 以 将 复杂 


散 点 图 


Age 


的 数据 以 直观 的 


这 类 统计 图 


在 最 基本 的 图 形 中 折线 医 


和 散 点 医 


是 最 容易 的 ， 下 面 就 来 尝试 执行 下 列 的 代码 : 


of Population 


形 表 达 出 来 ， 这 点 正 应 了 我 国 


图 8-5 正 好 表示 的 是 人 口 的 频数 到 


的 一 句 古话 “一 图 


到 目前 为 止 ， 前 面 所 绘制 的 分 布 都 称 为 经 验 分 布 ， 其 中 的 样本 是 基于 观察 的 、 有 限 的 ， 后 续 的 章节 还 会 学 习 到 连续 分 布 ， 这 是 一 种 从 数学 函数 中 生成 的 理想 化 的 分 布 。 在 这 之 前 让 我 们 先 学 习 一 下 数据 


胜 干 言 ”。 本 节 将 学 习 如 何 使 用 


import matplotlib.pyplot as pl 


plt.plot ([1, 2, 3, 4], 
plt.show() 


[2, 1, 


5, 6]) 


请 注意 show0 函 数 是 必须 调用 的 ， 如 果 没 有 调用 ， 虽 然 图 形 仍然 会 被 绘制 ， 但 却 不 会 显示 出 来 。 调 用 show0 函 数 之 后 ， 你 的 屏幕 上 会 出 现 一 个 窗口 ， 类 似 图 8-6。 


Figure 1 


分 /O10 二 | 忆 铝 国 


图 8-6 绘制 折线 图 


在 图 8-6 中 ， 窗 口 的 标题 是 Figure 1， 这 是 一 个 默认 的 绘图 窗口 名 。 而 我 们 所 看 到 的 折线 ， 则 是 按照 提供 的 参数 [1.2,3,4] 及 [2,1,5,6] 描 点 而 成 ， 其 中 第 一 个 参数 是 x 轴 的 刻度 ， 第 二 个 参数 是 y 轴 的 刻度 。 
每 一 个 点 都 由 对 应 的 x 轴 和 y 轴 两 个 刻度 共同 决定 ， 最 后 再 用 直线 将 这 些 点 连接 起 来 ， 就 得 到 了 图 8-6。 窗 口 最 底下 是 一 些 按钮 ， 最 右 侧 的 按钮 可 以 保存 当前 的 图 像 ， 而 其 余 的 按钮 则 是 用 来 调整 图 像 显示 效果 
的 。 如 果 要 退出 显示 ， 只 需 关 掉 图 片 窗口 即 可 ， 被 挂 起 的 Python 程序 这 时 会 正常 退出 。 


如 果 想 在 一 张 图 上 多 次 绘图 ， 或 者 同时 绘制 多 张 图像 也 是 可 以 的 ， 可 以 尝试 运行 下 面 的 代码 : 


plt.figure(1) 

plt.plot([1, 2, 3, 4], [2, 1, 5, 6]) 
plt.figure (2) 

plt.plot ([1, 2, 3, 4], [3, 1, 4, 6]) 
plt.savefig("/Users/jilu/Downloads/fig2") 
plt.figure(1) 

Plt.plot ([2, 4], [0, 2]) 


得 到 的 图 形 如 图 8-7 所 示 。 


1 
.0 1] 2.0 23 3.0 3.5 4.0 1.0 1.5 2.0 了 把 3.0 3 


a) b) 


8-7 ”同时 绘制 


这 次 使 用 savefig() 函 数 将 所 绘制 的 图 片 保存 起 来 ， 并 且 使 用 figure() 函 数 来 指定 当前 操作 的 对 象 是 图 8-7a 还 是 图 8-7b。 可 以 看 到 ， 在 图 8-7a 的 界面 中 绘制 了 两 条 折线 。 我 们 还 可 以 给 图 


Xx，y 轴 的 说 明 ， 示 例如 下 : 


4.0 


片 添加 标题 及 


Plt.Plot([1，2，3，4]，[2，1，5，6]) 
plt.title (u' 标 题 ') 

plt .xlabel (u'x 坐 标 轴 标签 ') 

plt.ylabel (u'y 坐 标 轴 标 签 ') 

Pplt.show() 


运行 上 面 的 代码 将 得 到 如 图 8-8 所 示 的 图 


出 


SN 


二 几 二 Figure 1 


介 QO 十 外 回国 


图 8-8 添加 坐标 轴 和 题 头 


如 果 不 单独 指定 线 型 ， 那 么 默认 的 线 型 都 是 蓝 色 直 线 (b-) ， 可 以 在 plot 的 第 三 个 参数 中 传 入 我 们 所 希望 的 线 型 ， 比 如 采用 下 面 的 代码 : 


X = range (30) 

11 = plt.plot (x, x, 'ro') 

12 = plt,plot (x [y**2 for 了 in x]; 'bs’) 

13 = plt,plot (x; [vy**3 for 了 in xy 'g*’) 
plt.title 和风 绕 现 测试 

plt .xlabel (u'x 坐 标 轴 标 签 ') 

plt.ylabel (u'y 坐 标 轴 标 签 ') 

plt.legend( (11[0], 12[0], 13[0]), ('1', '2', '3')) 


plt.show() 


运行 之 后 可 得 到 如 图 8-9 所 示 的 图 形 。 


线 型 标记 由 两 个 部 分 组 成 ， 如 图 8-9 中 最 下 面 的 线 其 线 型 标记 是 “ro”， 其 中 r 代 表 red， 表 示 线 的 颜色 ，o 则 代表 是 点 状 线 [1。 为 了 能 够 区 分 不 同 的 线 ， 右 上 角 还 增加 了 图 例 ， 使 用 legend0 方 法 ,可 以 
绘制 图 例 。 这 个 函数 需要 用 到 的 两 个 参数 均 是 列表 型 ， 第 一 个 参数 是 plot() 函 数 返 回 值 的 第 一 项 的 列表 ， 第 二 个 参数 是 每 条 曲线 所 代表 含义 的 字符 串 描述 的 列表 。 


不 同 线 型 测试 
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x 坐标 轴 标 签 


丛 包 上 思 十 所 器 国 


图 8-9 ”绘制 不 同 的 线 型 


掌握 基本 图 形 的 绘制 已 足以 应 付 下 面 的 课程 ， 后 续 章节 中 还 会 重点 介绍 几 种 特殊 图 形 的 绘制 方法 。 


[由 详细 的 颜色 和 线 型 可 以 参考 文档 : http://matplotlib.org/users/pyplot_tutorial.html。 


8.2.2 ”柱状 图 f0 饼 图 


8.2.1 节 中 已 经 学 习 了 如 何 绘制 折线 图 及 散 点 图 (主要 是 线 型 的 区 别 ) ， 本 节 将 学 习 如 何 绘制 柱状 图 及 饼 图 ， 这 是 两 个 最 常用 的 统计 图 形 。 在 前 面 讨论 全 国人 口 普查 数据 时 ， 曾 经 绘制 过 柱状 图 。 让 我 们 
再 看 一 下 代码 的 核心 部 分 ， 以 便 后 续 进行 讲解 : 


bottom = [0] * 100 

color list = ["b', Y¥'] 

plist = [] 

for i, item in enumerate ( [men_ num, women num]): 
dr = OrderedDict([(int(k), int(v)) for k, v in item.items() if k.isdigit()]) 
age list, num list = dr.keys(), dr.values() 
p= plt.barl(age list, num list, bottom=bottom, color=color list[i]) 
bottom = num list 
p_list.append (p) 

plt.ylabel ('Population') 

plt.xlabel ('Age') 

Blt title(" 各 年 龄 巩 人 口 分 布 1,) 


plt.legend((p list[0] [0], p_list[1] [0]), ('Men', 'Women')) 
plt.show() 


四 | 
中 | 


这 里 一 开始 就 定义 了 bottom 的 值 ， 即 柱状 图 开始 绘制 的 位 置 ， 先 将 这 100 条 柱状 图 的 底 均 设置 为 0， 所 以 b 图 例 ( 深 色 的 ) 代表 男性 的 柱状 图 均 是 从 x 轴 开始 绘制 的 。 绘 制 柱状 图 时 这 里 不 再 使 用 plot() 函 
数 ， 而 是 使 用 bar 函 数 ， 这 个 函数 与 plot() 函 数 类 似 ， 第 一 个 值 是 x 坐 标 轴 上 的 单位 〈 在 本 例 中 是 年 龄 从 1-100 岁 ) ， 第 二 个 值 是 每 个 x 对 应 其 y 轴 上 的 高 度 。 待 绘制 完 男性 的 直方 图 之 后 ， 将 当前 直方 图 的 顶 赋 
值 给 bottom， 以 便 在 第 二 次 绘制 女性 直方 图 时 直接 从 每 条 直方 图 的 顶端 开始 绘制 。bar() 函 数 中 的 第 三 个 参数 可 以 指定 直方 图 从 哪里 开始 绘制 ， 第 四 个 参数 就 是 直方 图 的 颜色 了 。 我 们 通过 这 样 的 方式 将 男 


[ 


性 和 女性 的 年 龄 分 布 使 用 不 同 颜色 [1] 画 在 了 一 张 直方 图 上 ， 如 果 有 更 多 的 分 类 ， 还 可 以 绘制 更 多 的 分 类 ， 如 图 8-10 所 示 。 
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图 8-10 ”绘制 多 分 类 直方 图 


讲 完了 柱状 图 ， 再 来 看 看 饼 图 。 饼 图 的 绘制 也 并 不 难 ， 不 过 需要 注意 的 是 ， 饼 图 无 法 承载 很 多 的 类 别 ， 还 是 拿 全 国人 口 年 龄 分 布 为 例 ， 在 绘制 饼 图 时 就 不 能 使 用 1 ~ 100 岁 划分 为 100 个 区 域 的 方式 了 。 
那 怎么 办 呢 ? 受到 原始 统计 Excel 的 启发 ， 可 以 使 用 每 5 岁 一 个 小 计 的 方式 进行 绘制 ， 所 以 可 参考 下 面 的 代码 : 


d = read_excel() 
total_num = d.get (u" 合 计 ") .get (u" 合 计 ") 
fracs = [] 
labels = [] 
for k, v in total_num.items () : 
if k.endswith (" 岁 ") : 
fracs .append (v) 
labels.append (k) 


plt.pie (fracs, labels=labels, autopct="'%1.1f%%', startangle=90) 


plt.title (u' 全 国人 口 分 布 ') 
plt.show() 


执行 代码 可 得 到 如 图 8-11 所 示 的 图 例 。 


10-14 岁 


15-19 岁 


20-24 岁 


全 国人 口 分 布 
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45-49 岁 


30-34 岁 35-39 岁 


从 昌 O 〇 十 呈 回国 


x=1.08871 y=-1.21094 


图 8-11 绘制 饼 图 


从 图 8-11 中 可 以 看 到 ， 由 于 大 于 70 岁 的 人 口 数 所 占 的 比例 实在 过 低 ， 图 例 


已 经 重 赤 在 一 起 了 ， 虽 然 我们 有 很 多 种 办 法 在 外 面 标注 图 例 ， 不 过 最 好 的 办 法 就 是 不 要 在 饼 图 中 分 这 么 多 的 区 域 。 但 在 此 之 


前 ， 还 是 先 来 分 析 一 下 绘制 图 8-11 的 函数 吧 ! 首先 ， 可 以 将 饼 图 想象 成 将 一 个 柱状 图 像 地 毯 一 样 卷 了 起 来 而 形成 的 图 ， 饼 | 


到 的 外 围 圆 环 等 于 柱状 图 的 x 轴 ， 每 个 三 角形 的 面积 等 于 柱状 图 在 y 轴 方向 的 高 度 。 


所 以 ， 对 于 绘制 饼 图 的 函数 pie()， 其 理解 方式 与 柱状 图 并 无 太 大 差异 ， 只 不 过 第 一 个 参数 换 作 了 数据 (相当 于 柱状 图 的 第 二 个 参数 ) ， 第 二 个 参数 才 是 单位 (相当 于 柱状 图 的 第 一 个 参数 ) 。 有 了 这 两 个 基 


本 的 参数 ， 我 们 就 能 绘制 饼 图 了 。 


绘图 是 了 解数 据 最 直观 的 方式 ， 读 者 不 妨 使 用 自己 收集 来 的 数据 多 绘制 一 些 图 ， 如 果 想 要 绘制 更 加 复杂 的 图 形 ， 则 可 以 参考 pyplot 的 官方 文档 : http://matplotlib.org/users/index.html。 


四 因为 黑白 印 无 法 显示 颜色 ， 实 际 上 当 读 者 自己 在 电脑 上 执行 程序 时 是 彩色 的 


8.3 概率 


8.2 节 不 经 意 间 提 到 了 概率 一 将 人 口 普 查 的 频数 图 转换 成 了 概率 质量 函数 ， 


稍 等 ， 想 要 通过 中 学 或 大 学 学 习 的 概率 论 知识 进行 计算 的 读者 先 不 要 动手 ， 
证 ， 这 种 手段 在 编程 中 被 称 作 “蒙特 卡 洛 模拟 ”。 


在 上 面 的 问题 中 ， 两 次 色 子 的 值 都 为 1 被 称 为 事件 (Event，E) ， 而 这 个 寻 


图 片 。 


那么 概率 是 什么 呢 ? 实 际 上 概率 就 是 频数 与 样本 总 数 的 比值 ， 通 常 来 说 ， 这 是 一 个 0 到 1 之 间 的 数字 ， 比 如 我 们 常 说 抛 一 个 硬 


币 ， 当 硬币 落下 时 正面 朝 上 的 概率 是 50%， 转 化 成 小 数 表示 就 是 0.5， 或 者 掷 一 个 6 面 的 公平 色 子 ， 获 得 1 点 的 概率 是 1/6， 转 换 成 小 数 大 概 是 0.16667。 那 么 连续 抑 了 两 次 色 子 都 获得 一 点 的 概率 是 多 少 呢 ? 


这 是 一 本 学 习 编程 的 书 ， 可 不 是 数学 书 。 虽 然 这 个 基本 的 概率 计算 已 经 得 到 了 证 明 ， 但 是 我 们 仍然 要 用 实验 的 方式 进行 验 


件 发 生 的 概率 则 可 以 表示 为 PE)， 为 了 探求 这 个 结果 ， 投 掷 了 无 数 次 色 子 的 过 程 称 为 实验 (trial) 。 通 过 无 限 次 的 实验 ， 并 且 


以 最 终 事件 发 生 的 频数 除 以 总 共 的 试验 次 数 ， 将 所 得 到 的 最 终 值 作为 概率 ， 这 一 点 绝 大 多 数 人 都 能 够 接受 。 虽 然 通 过 真人 做 这 样 一 个 实验 略 显 愚 大， 但 是 如 果 我 们 足够 相信 计算 机 ， 那 么 就 可 以 依赖 计算 机 


快速 地 完成 实验 。 参 考 下 面 的 代码 : 


# ! /usr/bin/python 
# =*~ Codingy utf-8 -~*~ 


from _ future _ import print function 
from random import choice 


def throw dice(): 
return choice([1, 2, 3, 4, 5, 6]) 


def one trial (trial count=100000): 
success count = 0 
for x in range (trial count): 
tl = throw dice() 


t2 = throw dice () 
if tl 一 t2 一 1: 
success count += 1 


return success count A float (trial count) 
if name 一 1 min _': 


for x in range (10):; 
print (x + 1, one trial()) 


这 里 首先 定义 了 一 个 掷 色 子 的 函数 ， 这 个 函数 使 用 random.choice() 随 机 地 从 1 ~ 6 的 数字 中 选取 一 个 以 模拟 色 子 的 功能 。 然 后 我 们 又 定义 了 一 个 one trial() 函 数 ， 这 个 函数 默认 会 重复 10 万 次 掷 两 次 色 
子 ， 如 果 两 个 色 子 同时 为 1 就 记 一 次 成 功 ， 然 后 返回 在 所 有 的 试验 中 有 多 大 的 比例 能 够 成 功 。 最 后 运行 10 次 该 函数 ， 将 得 到 下 面 的 结果 : 


02892 
02744 
02741 
02788 
02659 
0274 

02745 
02725 
02822 
0 0.02704 


PO 
OOooooooo0 


可 以 看 到 ， 多 次 结果 之 间 的 差距 是 非常 小 的 ， 这 与 我 们 的 预期 相符 ， 只 要 进行 足够 多 次 的 实验 ， 某 个 事件 出 现 的 概率 应 该 是 稳定 的 (如果 读 者 已 经 算出 了 搓 两 次 色 子 都 为 1 的 概率 为 1/6*1/6=0.2778， 
那么 就 会 发 现 这 个 实验 的 结果 还 是 相当 准确 的 ) 。 看 起 来 我 们 应 当 相信 实验 的 结果 ， 这 是 因为 “大 数 定理 ”这 个 定律 的 存在 。 根 据 这 个 定理 ， 对 于 独立 重复 的 试验 (就 像 本 实验 一 样 ， 每 次 实验 互相 之 间 都 
没有 影响 ) ， 如 果 特 定 的 事件 概率 是 p， 那 么 在 经 过 无 数 次 试验 之 后 ， 出 现 这 个 事件 的 概率 一 定 无 限 接近 概率 p。 


不 过 需要 注意 的 是 ， 大 数 定律 并 不 像 很 多 赌 徒 ( 买 彩票 也 算 ) 所 想 的 那样 一 如 果实 际 的 事件 发 生 的 概率 和 计算 的 概率 不 相符 ， 那 么 在 未 来 这 种 偏差 会 逐渐 缩小 。 这 种 对 回归 原则 的 错误 理解 也 被 称 
为 “ 赌 徒 廖 误 ”。 也 就 是 说 每 一 期 无 论 是 买 固定 的 一 个 号 还 是 随机 买 一 个 号 ， 中 奖 的 概率 是 一 致 的 ， 并 不 存在 一 直 买 一 个 号 就 会 逐渐 提高 中 奖 概率 的 情况 。 


第 9 章 ” 疏 虫 入 门 


虽然 数据 科学 家 可 能 没有 精力 去 研究 聆 虫 程序 ， 但 是 有 些 时 候 我 们 需要 处 理 的 数据 可 能 需要 其 他 的 一 些 数据 作为 辅助 ， 而 这 些 数据 无 论 是 来 自 公共 的 API 还 是 网 页 ， 都 需要 通过 相应 的 技术 抓 取 回来 。 本 
章 将 会 介绍 一 些 关 于 有 拒 虫 的 基本 概念 : HTTP 请 求 、DOM 树 解析 等 。 有 了 疏 虫 这 个 工具 ， 我 们 才能 对 互联 网 上 浩如烟海 的 数据 进行 自如 地 访问 和 处 理 。 


9.1 ”网络 资源 及 怜 虫 的 基本 原理 


通常 来 说 ， 网 络 上 的 数据 都 属于 资源 的 一 种 ， 有 的 是 纯粹 的 网 页 ， 有 的 是 图 片 ， 有 的 是 音乐 ， 有 的 是 视频 ， 还 有 其 他 的 资源 等 。 一 般 情况 下 ， 在 访问 一 个 网 址 (比如 : http://www.jd.com/) 时 , 会 看 
到 类 似 图 9-1 所 示 的 界面 。 


这 是 一 个 网 页 ， 也 称 为 一 个 网 页 资源 ， 而 我 们 常 说 的 网 址 (http://www.jd.com/) 也 称 为 统一 资源 定位 符 (url) ， 是 用 来 唯一 确定 这 个 网 页 资源 在 互联 网 中 位 置 的 符号 。 很 明显 这 个 网 页 中 不 仅 包 含 
文字 ， 还 包括 图 片 ， 当 我 们 单 击 图 片 时 会 跳 转 到 另外 的 网 页 中 去 ， 这 称 为 “ 超 链接 #。 我 们 还 可 以 右 击 图 片 选 择 “ 复 制图 片 地 址 ”[1， 如 图 9-2 所 示 。 


然后 就 会 得 到 一 个 新 的 url: 


http://img30.360buyimg.com/da/jfs/t2335/287/1812967836/44343/b673f11b/56dfdc15Nf8afbcd5.jpg 
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图 9-1 先 观察 待 抓 页 面 


二， 

在 新 标签 页 中 打开 链接 
在 新 窗口 中 打开 链接 
在 隐身 窗口 中 打开 链接 


链接 存储 为 .… 
复制 链接 地 址 


在 新 标签 页 中 打开 图 片 
图 片 存储 为 .… 
复制 图 片 


印象 笔记 : 英 藏 
< Share 


检查 


图 9-2 复制 图 片 链接 地 址 


当 我 们 直接 将 这 个 url 粘 贴 进 浏览 器 的 地 址 栏 时 ， 会 得 到 一 个 仅 包 含 一 张 图 片 的 网 页 ， 如 图 9-3 所 示 。 


此 时 就 直接 访问 了 这 张 图 片 资源 。 网 页 也 称 为 HTML， 是 “ 超 文本 标记 语言 ”的 缩写 向， 超 文本 是 指 页 面 内 可 以 包含 图 片 、 连 接 、 音 乐 、 程 序 等 非 普 通 文 字 的 元 素 ， 而 互联 网 中 的 网 页 就 是 通过 一 个 个 
url 互 相连 接 起 来 的 。 如 果 想 要 查看 网 页 的 源 代码 ， 那 么 右 击 网 页 空 折 处， 选择 “显示 网 页 源 代码 ” 即 可 ， 如 图 9-4 所 示 。 
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图 9-3 只 有 一 张 图 片 的 页 面 


© | view-source:wwwjdcom 


OCTYPR hem 
<html> 

<head> 

<meta charset="gok" /> 

<title> 京 东 (JD.COM)- 综 合 网 购 首 选 -正品 低 价 、 品 质 祭 障 、 针 送 及 时 、 轻 松 购 物 ! </title> 

<link reln"dna-prefetch" /imiec.360buyimg:.com" /> 

<link rel""dns-prefetch" 1/img10 .360buying.con" /> 

<link rel""dns-prefetch" /iimngll.360buyimg.con" /> 

<link rel""dns-prefetch" /J/imgl2.360buying.oon" /> 

| <Iink rel""dns-prefetch" Limagql13.360buyimg.com' /> 

<link rel="dns-prefetch" /iimglé .360buying.con" /> 

<link rele"dns-prefetch" href="//img30.360buying.con" /> 

<link rel="dna-prefetch" href="//d.3.cn" /> 

|<link rel="dns-prefetch" href="//d.jid.com" /> 

|<link rel="icon” href="//www.id.con/favicon.ico" mce href="//www.jo.com/favicon,ico" type="image/x~-icon"> 

<meta namem"description" ccntentm" 京 藻 JD-COM- 专 业 的 综合 网 上 购物 商城 , 销售 家 电 ， 数 码 通讯 、 电 隔 、 家 居 百 货 、 服 装 服 饰 、 母 异 、 图 书 、 食 品 等 数 万 个 吉 租 优质 商品 . 便捷、 诚信 的 服务 ， 为 您 提供 愉悦 的 网 上 购物 体验 ! "> 
<meta name= "Xeywords”content=* 网 上 购物 ,网 上 总 城 ,手机 ,笔记 本 ,电脑 ,MP3vCD,VCD,DY,， 柜 机 ,数码 ,配件 ,手表 ,存储 卡 ,京东 "> 


pt type="text/javascript">window.pageConfig = { coqmpatible: true , navId:"jdhome2015" , preload: false , timestanp:1457582279000, surveyLink : 
/surveys.jd.com/index .php?r=survey/index/sid/889711/newtest/Y/lang/zh-Hans" ，surveyTitle : ' 调 吉 问 卷 '}; 
</script> 
<script 台 "text/javascript "> 
lIfunction(w) { 
Var pcn = readCookie( pcm' ); 
/ivar ua = W.navigator.uvserngent; 
Var ua = Ww.navigator.userAgent.toLocaleLowerCase(); 
var Url = ‘//union.m.jd.com/click/go.action?to=%2F%2Fm. jd.comt2F8type=i&unlonIid=pcntiaozhuanssubunionId=pcmtiaozhuangXeyword: 
Var macchedRE = /iphone|android|symbianos|windows\sphone/g; 
function readcookie(name) 1 
Var nameEQ = name + "="; 
Var ca = document.cookie.split(';'); 
for (vac i = 0; i < ca.length; i++) { 
var c = ca[i]; 
while (c.charAt(0) == " '] { 
c = c.substring(1, c.length) 
小 
if (c.indexOf(nameEQ) == 0) { 
return c.substring(nameEQ. length, c.length) 


} 
return null 


} 
if [ matohedRe.test(ua) £5 pcm lm '1' ){ 
Ww.location.href m url} 


45| } (vindow)} 

6 </script> 

“7 

48| 

后 <style type="text/css" rel="stylesheet">/* jdf-1-0-0/ ui-base-css Date:2015-09-25 09:37:09 #/ 

50|a,address,h,big,blockquote,body,center,cite,code, dd,del,div,dl,dt,em,fieldset, font, Form,hl,h2,h3,h4,h5,h6,htmi,i,ifrane, img,ins, label, legend,]i,o]l,p,pre,snall, span, strong,U,ul ,var 
| {margin: 0;padding:0}article,aside,details, figcaption,figure,footer,header,hgroup,main,nav,section,summary display:block}hr{-moz-box-sizing:content-box;box-sizing:content.— 


图 9-4 网 页 源 代码 


可 以 看 到 这 个 文件 是 以 <!IDOCTYPE html> 开 头 的 一 个 文件 ， 表 示 这 是 一 个 HTML 文 件 ， 并 且 在 文件 里 ， 到 处 都 充斥 着 “<>” 这 样 成 对 出 现 的 符号 ， 有 的 “< >” 里 是 hnead， 有 的 则 是 link、script 和 
div 等 不 同 的 标记 ， 这 些 标 记 称 为 标记 标签 ， 待 浏览 器 获得 这 个 网 页 的 HTML 源 码 之 后 ， 内 部 会 有 一 个 泻 染 引擎 ， 通 过 解析 HTML 源 码 中 标记 的 这 些 标签 及 内 容 将 网 页 绘制 到 屏幕 上 ， 这 样 我 们 就 能 看 见 图 
化 的 网 页 了 。 为 了 方便 起 见 ， 下 面 将 解释 一 个 最 基本 的 HTML 中 存在 的 几 种 标记 标签 : 


<html> 
<body> 


<hl>My First Heading</h1> 
<p>My first paragraph.</p> 


</body> 
</html> 


在 这 个 最 基本 的 HTML 中 ， 
“ <html> 与 </html> 之 间 的 文本 是 网 页 中 有 效 的 html 代 码 。 
“ <body> 与 </body> 之 间 的 文本 是 我 们 实际 上 可 见 的 页 面 内 容 。 
* <h1> 与 </h1> 之 间 的 文本 是 浏览 器 标签 卡 上 显示 的 标题 。 


. <p> 与 </p> 之 间 的 文本 则 为 一 个 新 的 段落 。 


通常 为 了 让 网 页 更 美观 ， 我 们 还 会 使 用 CSS 及 JavaScript 来 增加 样式 ,或 者 增加 交互 动画 ， 不 过 在 本 节 的 息 忠 程序 中 暂时 不 必 关心 这 些 东 西 ， 因 为 只 要 有 前 面 的 那些 标签 就 足以 区 分 不 同 的 内 容 了 。 


此 想 要 通过 程序 获取 网 页 中 的 内 容 了 ， 就 要 通过 程序 (而 不 是 浏览 器 ) 访问 url， 获 取 HTML 源 码 ， 并 解析 HTML 标 签 中 的 内 容 ， 这 就 是 朴 虫 的 基本 原理 。 


四 笔者 这 里 使 用 的 是 谷歌 浏览 器 ， 笔 者 建议 读者 也 使 用 该 浏览 器 进行 疏 贝 程序 的 编写 ， 如 果 你 用 的 是 其 他 的 浏览 器 ， 那 么 可 能 在 本 书 讲 解 过 程 中 使 用 到 的 部 分 功能 你 是 无 法 使 用 的 。 
[中 HTML 是 一 种 标记 语言 ， 是 有 别 于 编程 语言 的 ，HTML 的 一 行 只 声明 这 一 行 是 什么 ， 不 会 像 编程 语言 一 样 告诉 计算 机 应 该 怎么 做 。 
[3] 想 要 了 解 全 部 标签 的 含义 可 以 参考 : http://www.w3school.com.cn/tags/html_ref_byfunc.asp。 


9.2 ”使 用 request 模 块 获取 HTML 内 容 


可 能 有 的 读者 在 网 上 已 经 看 过 一 些 关 于 伶 虫 的 教程 ， 很 多 教程 会 使 用 urllib2 这 样 的 Python 内 置 模块 来 讲解 聆 虫 ， 不 过 想 要 让 初学 者 理解 urllib2 中 的 逻辑 还 是 要 花费 一 番 工 夫 的 ， 
学 习 的 requests 模 块 ， 这 个 模块 不 是 标准 库 的 一 部 分 ， 需 要 进行 额外 地 安装 ， 就 像 以 前 的 第 三 方 模块 一 样 ， 可 使 用 pip 进 行 安装 ， 代 码 如 下 : 


此 这 里 选择 了 更 容易 


$pip install requests 


9.2.1 关于 HTTP 协 议 


在 本 节 开 始 之 前 ， 有 必要 了 解 一 下 什么 是 HTTP 协 议 。 再 来 看 看 url| 长 什么 样 : 


http://www.jd.com/ 


可 以 看 到 ， 在 我 们 熟悉 的 WWW 网 址 的 前 缀 之 前 还 有 一 个 http:// 的 标志 ， 这 表示 这 个 网 页 是 通过 HTTP 协 议 进 行 访问 的 ， 对 HTTP 协 议 如 何 握手 、 如 何 通 信 有 兴趣 的 读者 可 以 自己 上 网 搜集 相关 资料 。 这 
个 协议 是 WWW 网 络 的 标准 协议 ， 中 文 名 字 称 为 “ 超 文本 传输 协议 ”， 基 本 上 就 是 专门 为 了 传输 HTML 文 件 而 设计 的 。 除 了 HTTP 协 议 之 外 ， 常 用 的 还 有 HTTPS 协 议 ， 比 如 https://www.baidu.com (https 


协议 属于 一 种 加 密 的 HTTP 协 议 ) 。 这 两 种 协议 都 提供 了 一 些 方法 用 于 通信 ， 不 过 最 常用 的 只 有 GET 和 POST 方 法 了 ， 前 者 用 于 获取 数据 ， 后 者 用 于 上 传 数据 。 由 于 有 息 虫 程序 只 会 获取 数据 ， 所 以 ， 这 里 只 


了 GET 方 法 。 让 我 们 打开 谷歌 浏览 器 ， 在 菜单 的 “更 多 工具 ”中 找到 “开发 者 工具 ”， 如 图 9-5 所 示 。 


打开 新 的 标签 页 
打开 新 的 窗口 SN 
打开 新 的 隐身 窗口 OBN 


历史 记录 bp 
下 载 内 容 个 器 J 


将 页 面 存储 为 .… 3S 


添加 到 “应 用 "文件 夹 .. 


清除 浏览 数据 分 名 锯 
扩展 程序 
任务 管理 器 
编码 


开发 者 工具 tl 


图 9-5 ”打开 浏览 器 的 开发 者 工具 


此 时 ， 会 打开 一 个 专用 的 调试 窗口 ， 如 图 9-6 所 示 。 


Flements Console Sources Nerwaork Timeline Proflles Resources Securly AUdITS 


时 太 | OD Preserve log DODisable cache | No throttling 了 


] Cide dataurts 加 | xhR Js css Img Media Font Doc WS Other 


1000 ms 2000ms 3000ms 4000 ms SO00 ms 5000ms 7000 ms 5000 ms 9000ms 10000ms 11000 ms 12000 ms 13000ms 14000ms 


Status Type Initiator Size 


Www.jd.com 200 document Other 43.2 KB 
topFrame.j5 200 xhr require -config.js:2 (from cache) 
Clipper.js 200 requlre-config.is:2 (from cache) 
ContentPreview.js 0 require-config.ls2 (from cache) 
Coordinator.js 200 require-config.is:2 (from cache) 
Clobalutilsjs 200 reguire-config.js:2 (from cache) 


Cucrom TainnElioiniinv jc " ronulroa~rnnfia ic:2 {frnm cachoy 


5 requests | 394 KB transferred | Finish: 12.715 | DOMContentLoaded: 651 ms | Load: 2.245 


Console 


© 可 <ropfrmame> v 口 Preserve log 
UC ECE ETI OPESNLUUL ELE GUN CEL FUT EUV SO GET WWWT US CUNreL! UW IY Toonay 


D9 >Uncaught ReferenceError: _gaq is not defined 


图 9-6 ”开发 者 工具 界面 


选择 图 9-6 中 的 Network 选 项 卡 ， 然 后 刷新 网 页 ， 就 可 以 看 到 一 次 完整 的 HTTP 请 求 的 过 程 ， 在 整个 过 程 中 ， 第 一 个 发 出 的 是 www.jd.com 这 个 资源 的 获取 请 求 。 可 以 看 到 ， 在 Name 一 栏 中 第 一 行 
是 www.jd.com， 这 一 行 对 应 的 Method (也 就 是 HTTP 方 法 ) 为 GET， 代 表 我 们 在 获取 数据 ， 另 外 一 个 需要 说 明 的 就 是 Status (也 就 是 HTTP 状 态 码 ) ， 代 表 我 们 的 请 求 是 否 成 功 ， 通 常 来 说 ，200 代 表 此 次 


请 求 是 成 功 的 。 常 见 的 HTTP 代 码 有 下 面 这 几 种 [1]: 


* 1xx: 信息 
.2xx: 成 功 
“ 3xx: 重 定向 


“ 4xx: 客户 端 错误 


“ 5xx; 服务 器 错误 


如 果 肛 虫 程序 中 出 现 了 4xx 这 种 情况 (比如 404 页 面 ) ， 那 就 需要 特别 注意 了 ， 如 图 9-7 所 示 。 


< © 站 wwwbilibili.com/a 


aa 


文件 不 存在 响 ! 


前 端 服务 器 : cn2-ti-cu 处 理 服 务 器 : shd-slb-5 
清 求 地 址 : http://www.bilibili.com/a ”错误 号 : 404 用 户 IP: 110.172.195.131 


9-7 404 页 面 


这 代表 我 们 的 程序 访问 了 错误 的 网 页 ， 需 要 修正 这 个 错误 。 关 于 HTTP 协 议 ， 一 般 了 解 到 这 个 程度 就 足够 了 了， 下 面 就 让 我 们 正式 开始 聆 虫 之 旅 吧 。 


由 一 个 更 详细 的 列表 可 以 参考 : http://www.w3school.com.cn/tags/html_ref_httpmessages.asp。 


9.2.2 ”使 用 requests 的 get 方 法 获取 HTML 内 容 


requests 的 使 用 非常 简单 ， 这 个 模块 抽象 了 所 有 关于 HTTP 底 层 的 概念 。 直 接 使 用 requests.get() 方 法 就 等 同 于 使 用 网 络 浏览 器 访问 某 个 网 站 ， 比 如 下 面 的 代码 : 


# ! /usr/bin/python 
# -woding: utf-8 一 上 一 


from future _ import print function 
import requests 


import sys 
reload (sys) 
sys.setdefaultencoding ("utf-8") 


resp = requests.get ('http://www.jd.com') 
print (resp.status_code) 
print (resp.content .decode ("gbk")) 


得 到 的 结果 就 是 网 页 www.jd.com 的 HTML 源 码 [1]， 源 码 如 下 : 


200 

<!DOCTYPE html> 

<html> 

<head> 

<meta charset="gbk" /> 

<title> 京 东 (JD.COM) -综合 网 购 首选 -正品 低 价 、 品 质保 障 、 配 送 及 时 、 轻 松 购 物 ! </title> 
<link rel="dns-prefetch" href="//misc.360buyimg.com" /> 

<link rel="dns-prefetch" href="//img10.360buyimg.com" /> 

<link rel="dns-prefetch" href="//imgl1.360buyimg.com" /> 

<link rel="dns-prefetch" href="//imgl2.360buyimg.com" /> 

<link rel="dns-prefetch" href="//imgl3.360buyimg.com" /> 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


此 时 可 能 有 些 电脑 的 终端 打印 的 结果 会 有 一 些 乱码 (比如 : @9L999696D9996) 无 法 正确 地 显示 中 文 。 这 时 ， 一 般 在 网 页 的 原始 HTML 文 件 的 头 部 会 有 类 似 “<meta 
charset= "gbk"/>” 这 样 的 标签 ， 还 记得 第 4 章 讲 的 字符 集 (charset) 么 ” 没 错 ， 这 里 要 把 这 段 HTML 源 码 按照 GBK 字 符 集 进 行 解码 ， 可 以 注意 到 ， 我 在 最 后 一 行 的 打印 函数 中 使 用 
了 “resp.content.decode("gbk")” 将 GBK 解 码 为 Python 可 以 识别 的 Unicode 编 码 ， 这 样 就 可 以 正确 地 获得 中 文 了 。 在 调用 完 requests.get() 方 法 之 后 ， 返 回 值 中 有 两 个 属性 需要 关注 一 下 : 一 个 是 
resp.status_ code， 这 个 值 就 是 前 文 所 说 的 HTTP 代 码 ， 当 其 为 200 时 即 代表 正确 的 访问 ， 就 像 上 面 的 结果 中 显示 的 那样 。 第 二 个 值得 关注 的 就 是 resp.content， 打 印 这 个 属性 会 获取 的 HTML 内 容 。 


上 面 的 例子 演示 了 最 基本 的 使 用 requests.get() 访 问 网 站 HTML 内 容 的 方法 ， 有 的 时 候 直接 访问 并 不 会 得 到 我 们 在 浏览 器 上 看 到 的 信息 ， 比 如 某 些 需要 登录 才能 实现 的 功能 (购物 车 、 订 单 信息 等 ) 。 这 
是 因为 网 站 需要 有 登录 信息 才能 确定 如 何 向 我 们 显示 结果 ， 比 如 在 访问 我 的 京东 订单 列表 “http://orderjd.comycenterlistaction” 这 个 ur 时， 将 获得 的 HTML 文 件 保存 成 .html 文 件 加 : 


resp = requests.get ('http://order.jd.com/center/list.action', headers=None) 
with open('/Users/jilu/Downloads/jd test.html', 'a') as fw: 
fw.write (resp.content) 


再 用 浏览 器 打开 时 会 获得 这 样 的 效果 ， 如 图 9-8 所 示 。 


> © (file:///Users/llu/Downloads/jd_test.html 


有 JD. wa 


京东 会 员 @@ 立即 注册 
公共 场所 不 建议 自动 野 录 ， 以 防 帐号 委 先 


邮箱 /月 户 名 /已 验证 手机 


便 用 合作 网 站 账 弓 登录 京东 ; 
京 系 钱包 | QQ | 德 千 


有 登录 页 面 ， 油 查 问 老 
关于 我 们 | 联系 我 们 | 人 才 招聘 | 商家 入 驻 | 广告 服务 手机 京东 | 友情 链接 | 销售 联盟 | 京东 社区 | 京东 公益 | English Site 
Copynghte2004-2015 京东 JD.com 版 权 所 有 


图 9-8 被 重 定向 到 了 登录 页 面 


这 里 仅仅 取得 了 登录 页 面 而 不 是 我 们 想 要 的 订单 列表 ， 该 怎么 办 呢 ? 在 程序 中 实现 账号 密码 登录 是 一 项 十 分 烦琐 的 功能 。 不 过 这 难 不 倒 我 们 ， 因 为 很 多 网 站 为 了 方便 客户 访问 而 不 用 每 一 次 都 输入 密 


码 ， 在 我 们 的 沪 


览 器 中 也 保存 了 一 部 分 登录 信息 ， 当 我 们 再 次 访问 网 站 时 ， 网 站 检测 到 了 这 部 分 信息 就 会 直接 让 我 们 处 于 登录 状态 。 现 在 让 我 们 登录 自己 的 账号 ， 然 后 打开 谷歌 浏览 器 的 开发 者 工具 ， 选 择 


Network 选 项 卡 ， 选 择 第 一 条 “list,action” 这 个 资源 ， 这 时 会 出 现 一 个 新 的 窗口 ， 如 图 9-9 所 示 。 


在 这 个 窗口 


的 最 下 端 ， 可 以 看 到 Request Headers， 如 图 9-10 所 示 。 


这 是 由 一 个 键 值 对 结构 组 成 的 内 容 ， 现 在 聚焦 于 Cookie 这 个 键 ， 可 以 看 到 这 个 键 的 值 非常 长 Bl]， 这 里 面 存 储 着 我 们 的 账户 登录 信息 ， 有 了 它 就 可 以 免 密码 登录 了 。 我 们 可 以 把 Request Headers 里 的 值 
放 入 一 个 名 为 headers 的 字典 中 ， 并 且 在 调用 requests.get0 函 数 时 为 关键 字 参 数 headers 赋 值 ， 示 例如 下 : 


headers = 


{“Accept”: “text/html,application/xhtml+xml,application/xml;q=0.9,image/webp, */*;q=0.8”, 


“Accept-Encoding”: “gzip, deflate, sdch’”, 

"Accept-Language":"zh-CN, zh;q=0.8,en-US;q=0.6,en;q=0.4,zh-TW;q=0.2,ja;q=0.2", 

"Cache-Control": "max-age=0", 

"Connection": "keep-alive", 

"Cookie": "lighting=275B4E6D3831EAhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/...443768", 
"Host"s "order.Jd,com", 

"Referer": "http//cart.jd.com/cart", 

"Upgrade-Insecure-Requests": “1”, 

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 11 3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"} 


resp = requests.get ('http://order.jd.com/center/list.action', headers=headers) 


Print (resp 
with open( 


.Status code) 


\/Users/jilu/Downloads/jd test 1 .html’, ‘a’) as fw: 


fw.write (resp.content) 
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图 9-9 ”使 用 开发 者 工具 进行 调试 


Accept: text/html,application/xhtml+xml,application/xml;q=0.9, image/webp,*/*;q=0.8 

Accept-Encoding: gzip, deflate, sdch 

Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4,zh-TW;q=0.2,1a;q=0.2 

Cache-Control: max~age=0 

Connection: keep-alive 

Cookie: lighting=275B000 B38A2F887366FF42DB374 
4EA437F95BFFBEFB6820600 ”me en M3C68A8BAE2A66291E51 

F; mba_muid=14498087 朋 5 en - - 。 - : WV7JVyj7KkQMpSoOENnbkBz| 
xEhFUVAyToxox7bZYb6G0 ~ Oo - - Mv; pin=magievaner_mi 

unpl=V2_ZzNtbUZWRKYi =- oe nm es # ~ 和 LKV8EVwMTbUdSRBBwCkB 

citLsALCZIL1EVOEWcDhHi 0 - 、 * Midusearch|cpc|3152823| 
9457_0_504bfe3ffa004 四 9 “~. - oc-djd=1-72-2839-0; 

thor=5152892156CB91100 od " 99495C923F86E0825368( 
83323C2EF48A2694A5E4 情 本 = - REC8135E0AC; _jda=122 
279672.446443768.141W5 渍 * - 

Host order, jd. com 

Referer: http://cart. jd,com/cart 

Upgrade-Insecure-Requests: 1 

User-Agent Mozilla/5,0 (Macintosh; Intel Mac 0S X 18 11 3) AppleWebKit/537,36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36 


图 9-10 headets 的 例子 


在 浏览 器 中 打开 再 次 运行 后 获取 的 HTML 页 面 ， 如 图 9-11 所 示 。 


所 CG [file:///Users/jilu/Downloads/jd test_1.html 
。 ”2013 车 抹 章 
。 2013 年 以 前 订单 
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图 9-11 在 浏览 器 中 直接 打开 的 HTML 
这 时 就 可 以 看 到 订单 的 内 容 了 。 怎 么 样 ? 是 不 是 很 有 趣 ，9.3 节 将 会 讲解 如 何 通 过 程序 解析 HTML 中 我 们 想 要 的 信息 。 


四 因为 篇 幅 的 原因 这 里 只 打印 出 了 部 分 的 HTML 内 容 ， 读 者 可 以 自己 尝试 运行 这 个 程序 以 获取 全 部 的 源码 。 
[中 在 保存 文本 文件 时 不 需要 经 过 转换 GBK 编 码 ， 因 为 浏览 器 可 以 自动 识别 文件 编码 。 
[3] 为 了 保护 我 的 隐私 ， 我 对 其 中 大 部 分 的 值 做 了 模糊 处 理 。 


9.3 ”使 用 Xpath 解 析 HTML 中 的 内 容 


通常 来 说 ，HTML 代 码 是 一 种 为 机 器 设计 的 标记 语言 ， 并 且 符 合 一 种 名 为 DOM (文档 对 象 模型 ) 的 模型 ， 理 论 上 只 要 有 一 种 程序 可 以 解析 DOM 就 可 以 解析 HTML 文 件 了 ， 可 以 按照 标签 的 层级 查找 我 
们 想 要 的 元 素 。Xpath 则 是 一 门 在 HTML 中 查找 信息 的 语言 ， 本 节 将 会 更 加 关注 HTML 的 结构 、 层 级 ， 以 及 如 何 使 用 Xpath 编 写 命令 查找 我 们 想 要 的 HTML 信 息 。 前 面 已 经 看 过 很 多 次 京东 网 站 的 页 面 了 ， 下 
面 就 以 候 取 主页 上 的 “全 部 商品 分 类 ”来 讲解 如 何 使 用 Xpath， 如 图 9-12 所 示 。 


商 慰 多 | 电子 - | 


图 9-12 ”京东 商品 分 类 目录 


要 使 用 Xpath 功 能 ， 就 要 安装 lxml 这 个 第 三 方 库 ， 安 装 命令 如 下 : 


$pip install lxml 


9.3.1 ”HTML 的 层级 和 Xpath 的 基本 概念 


让 我 们 打开 谷歌 浏览 器 的 “开发 者 工具 ”， 然 后 单 击 工具 栏 左上 角 的 民 图 标 ， 并 选择 京东 首页 上 的 “全 部 商品 分 类 ” ， 这 样 就 自动 跳 转 到 Elements 选 项 卡 上 来 ， 如 图 9-13 所 示 。 
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<html class="root61”"~ 
vr<head>.</head> 
TY<body> 
*<d1V id="shortcut-2014">_</div> 
P<div class="w">..</div> 
vxdiv id="nay-2014"> 
TY<div class="w"> 
<div class-"w-spacer"></d1iv> 
v<div id="categorys-2914" class="dorpdown" data-load="1"> 
Y<div class="dt" clstag="h|keycount|2015|05a"> 
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“a target="_blank" href-—"http://www.jd,con/allSort,aspx"> 全 部 两 品 分 类 </a> 


</div> 
vediv class="dd"> 

vadiv class="dd-inner"> 
p<div forei” 
p<xdlv ¢ Tore2” 
<dLV fore3” 
p<div fore4" 
Pxdiv ¢ fore5” 
Pediv < fore6" hkeycount |2915| 


html,root61 ‘body di vanav. 2014 dvw divicategorys 2014 Gorodown div.dt 


date-index="1" 
data- lndex="2" 
data-index= 
date-index= 
data-inde, 
data-inde' 


h|keycount |2015|85@48 


h |keycount |201519561a” 
hikeycount 12915129562a” 
h|keycount |2015|0503a" 


"> 


“h|keycount |2015|9565a” 


图 9-13 使 用 开发 者 工具 寻找 想 要 的 元 素 


此 时 可 以 看 到 ， 不 同 的 HTML 标 签 以 一 定 的 层级 结构 被 展示 了 出 来 ， 而 高 亮 显示 的 一 行 则 正 是 “<a target="_blank"href="http://www.jd.com/allSort.aspx"> 全 部 商品 分 类 </a>"” 


在 一 个 HTML 定 义 中 , 被 “> <” 符 号 所 夹 的 文字 将 会 是 在 网 页 上 显示 出 来 的 文字 ， 
高 亮 的 形式 显示 这 一 行 代码 所 对 应 的 部 分 ， 如 图 9-14 所 示 。 


若 将 鼠标 悬 停 在 HTML 属 性 class 值 为 “item fore3” 


( 浅 蓝 色 ) 的 这 一 行 上 ， 


Styles Computed Event Listeners DOM Breakpoints Properties 
Fikter 

element.style { 

} 


#categorys-2014, #categorys-2014 .dd-inner h3, 
#categorys-2014 .dt a, #navitens-2014 a { 
font-family: "Microsoft YaHei",tahoma,arial, "Hiragino Sans 
GB", "bBobf53",sans-serif; 


(index) :569 


#categorys-2014 .ot a { 
display: blocx; 
width; 190px; 
height: 44px; 
padding: » 0 10px; 
background; 上 国 #61191A; 
fontir400 15px/44px "microsoft yahei”"; 
color: Mfff; 


text-decoration: pnone; 


(index) :5 


。 需 要 注意 的 是 ， 


而 在 “<>” 符 号 中 属性 为 href 的 值 则 是 鼠标 单 击 时 的 超 链接 。 我 们 还 可 以 将 鼠标 悬 停 在 对 应 的 行 上 ， 此 时 在 网 页 中 会 以 


网 页 上 对 应 “电脑 、 


办 公 ” 这 一 行 也 会 以 浅 蓝 色 高 亮 显示 出 来 。 


下 面 来 谈 一 下 HTML 的 层级 。 与 Python 的 缩 进 一 样 ，HTML 也 是 会 有 缩 进 的 ， 不 同 级 别 的 HTML 标 签 有 着 不 同 的 缩 进 ， 同 一 个 缩 进 级 别 代表 这 些 HTML 元 素 是 在 同一 个 代码 块 中 。 从 视觉 上 可 以 清楚 地 感 


觉 到 ， 商 品 列表 中 的 15 个 分 类 与 全 部 商品 在 同一 个 视觉 层级 上 。 实 际 上 在 图 9-14 中 HTML 属 性 class 值 为 dt 的 代码 块 中 包含 “全 部 商品 分 类 ” 
这 15 个 分 类 ， 则 要 在 class 值 为 dd 的 代码 块 中 再 下 降 一 个 层级 ， 使 class 值 等 于 dd-inner 处 。 那 么 整个 HTML 路 径 就 是 <body> <div> <div> <div> <div> <div>， 


步 获 取 其 中 的 中 文 类 目 名 ， 则 要 再 进一步 ， 相 关 的 代码 截图 如 图 9-15 所 示 。 


¢3C 


站 wwwjd.com 


， 而 class 值 为 dd 的 代码 块 中 只 包含 其 余 15 个 分 类 。 若 想 要 访问 
这 样 就 可 以 获得 整个 分 类 列表 了 。 若 要 进 一 
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"dorpdown” data 
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3 target—" blank 
div < class=" 
v<div class=" 
<div class=" 
<div class="iten 
<div class="item 
<div class="iten 
<div cl 
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item fore1” 
fore2" 
fore37 
Torea" 
fore5" 
fore6" 
tore7™ 
fore8" 


data-index="1” 
data 

data 

data 
data-index="5 
data-index="6” 
data-lndex- 
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We An 


dvpcategorys 20 I 4 .dorpdown 


h|keycount1281519595 
<div hlkeycount12p91519596a， 
<div 
<div 


; cls ta hikeycount| 281510508 
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html,root6l body Givenav div. dt 
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http://www. jd.com/allSort.aspx “全 部 商品 分 类 </3 


clstag="h|keycount |2815|0501a" 
" clstag="h|keycount|2815|6592a" 
clstag="h|keycount|281510503a" 

h|keycount |2215 |0504a" 


" clstag—"h|keycount |2915|0507a' 


使 用 选择 工具 找到 目标 代码 


小 米 5 红 伪 


金融 


届 我 的 购物 年 


京东 快报 多 > 


| syles Computed 


Event Listeners DOM Breakpoints Properties 
Filte 


elenent,style { 
} 
#categorys-2014, #categorys-2614 .dd-inner h3, 
#categorys-2914 ,dt a, #navitems-2914 a { 
font-fanily: "Microsoft YaHei", tahoma,arial,"H 
G6",“bBbT53", sans-serif; 


iragino 


|} 

#categorys~2014 ,dt af 
display: block; 
width; 196px; 
a 44px; 


{index):58| 


font: 上 499 15px/44px "nicrosoft yahei"; 
color: JI#fff; 
text-decoration: pnone; 


} 
ai 


<html class="root61"> 
bp <head>..</head> 
v <body> 
p<div id="shortcut-2014">..</diVv> 
p<div class="W">..</div> 
Y<div id="nav-2014"> 
Y<div class="w"> 
<div class="w-spacer"></div> 
v<div id="categorys-2014" class="dorpdown" data-load="1"> 
p<div class="dt" clstag="h|keycount|2015|05a">..</div> 
v<div class="dd"> 
v<div class="dd-inner"> 
v<div class="item forel” data-index="1" clstag="h|keycount|2015|0501a"> 
v <h3> 
<a target=" blank" href="http://channel,jd.com/electronic,html"> 家 用 电器 </a> 
</h3> 
<i>></i> 
</div> 
p<div class="item fore2" data-index="2" clstag="h|keycount|2815|0502a">..</div> 
p<div class="item fore3" data-index="3" clstag="h|keycount|2815|0503a">..</div> 
<div class="item fore4” data-index="4"” clstag="h|keycount|2815|0504a">..</div> 


9-15 ”找到 的 目标 代码 


沿 着 标签 <div> 一 <h3> 一 <a> 的 路 径 寻 找 ， 就 到 达 了 最 后 一 个 层级 ， 现 在 不 妨 来 尝试 一 下 : 


# ! /usr/bin/python 
# -*- coding: utf-8 -*— 


from __ future _ import print function 
import requests 
from lxml import etree 


resp = requests.get ('http://www.jd.com') 

doc main = etree.HTML (resp.content) 

for x in doc main.xpath("//body/div/div/div/div/div/div/h3/a"): 
print (*x.xpath ("text ()") + x.xpath("@href")) 


结果 如 下 所 示 [1]: 


http://channel.jd.com/electronic.html 

手机 http://shouji.jd.com/ 

数码 http://shuma.jd.com/ 

京东 通信 http://mobile.jd.com/ 

电脑 、 办 公 http://diannao.jd.com/ 

家 居 http://channel.jd.com/home.html 

家 具 http://channel.jd.com/furniture.html 
家 装 http://channel.jd.com/decoration.html 
厨具 http://channel.jd.com/kitchenware.html 
男装 http://channel.jd.com/1315-1342.html 
女装 http://channel.jd.com/1315-1343.html 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


将 获取 的 HTML 内 容 作为 参数 传 给 lxml.etree.HTMLO， 这 样 就 能 够 使 用 xpath0 方 法 来 查找 我 们 想 要 的 HTML 元 素 了 ， 这 里 以 完整 的 标签 层级 欠 作 为 xpath0 的 参数 。 在 打印 函数 中 再 次 调用 xpath0 函 
数 ， 并 且 可 以 使 用 xpath 语 法 中 的 “text0”B 获 取 HTML 中 的 文本 元 素 ， 也 就 是 商品 的 分 类 ;以 及 使 用 “@href” 获 取 HTML 属 性 为 href 的 值 ， 也 就 是 分 类 对 应 的 url。 不 过 细心 的 读者 可 能 会 发 现 ， 原 始 分 
类 菜单 中 的 “手机 、 数 码 、 京 东 通 信 ” 是 在 一 行 上 的 ， 但 是 为 什么 我 们 现在 所 使 用 的 解析 方式 将 其 解析 成 了 多 行 呢 ? 再 看 一 下 原始 菜单 中 的 第 二 行 到 底 发 生 了 什么 ， 如 图 9-16 所 示 。 


可 以 看 到 有 3 个 标签 <a> 被 并 列 放置 着 ， 原 来 是 我 们 自己 忽视 了 这 个 问题 ， 现 在 要 将 获取 HTML 的 层级 向 前 退 一 步 ， 代 码 改 为 : 


for x in doc main.xpath("//body/div/div/div/div/div/div/h3"): 
print (*x.xpath ("a/text ()") + x.xpath ("a/@href")) 


Y<div id="categorys-2014" class="dorpdown"” data-load="1"> 
p<div class="dt" clstag="h|keycount|2015|05a">.</div> 
v<div class="dd"> 
v<div class="dd-inner"> 
p<div class="item forel” data-index="1" clstag="h|keycount|2815|0501a">..</div> 
v<div class="item fore2" data-index="2"” clstag="h|keycount|2815|08582a"> 
v<h3> 
<a target="_ blank"”" href="http://shouji.jd.com/"> 手 机 </a> 


LL 1 
、 


<a target="_blank" href="http://shuma.jd,com/"> 数 码 </a> 


1 -4 
、 


<a target="_blank” href="http://mobile.jd.com/"> 京 东 通 信 </a> 
</h3> 
<i>></i> 
</div> 
p<div class="item fore3" data-index="3" clstag="h|Kkeycount|2815|08503a">..</div> 
p<div class="item fore4" data-index="4" clstag="h|keycount|20815|0504a">..</div> 
p<div class="item foreSs" data-index="5" clstag="h|keycount|20815|05805a">.</div> 
p<div class="item fore6" data-index="6" clstag="h|Kkeycount|2015|0586a">..</div> 


9-16 找到 问题 的 所 在 


这 回 的 结果 就 正确 了 ， 如 下 : 


家 用 电器 http://channel.jd.com/electronic.html 

手机 数码 京东 通信 http://shouji.jd.com/ http://shuma.jd.com/ http://mobile.jd.com/ 

电脑 、 办 公 http://diannao.jd.com/ 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


到 目前 为 止 ， 虽然 还 没有 讲解 Xpath 的 概念 ， 但 是 我 们 已 经 能 够 使 用 Xpath 查 找 HTML 中 所 要 的 信息 了 。 其 实 Xpath 简 单 得 很 ， 基 本 上 就 是 顺 着 HTML 层 级 ， 逐 级 地 找到 我 们 所 定义 的 Xpath 路 径 即 可 ， 
虽然 Xpath 后 面 还 有 很 多 内 容 ， 但 是 本 章 只 需 掌握 这 些 内 容 就 足够 了 ， 有 兴趣 的 读者 可 以 参考 : http://www.w3school.com.cn/xpath/index.asp 进 行进 一 步 的 学 习 。 


中 只 截取 了 部 分 结果 。 
四 也 可 以 称 为 Xpath 路 径 。 
[3] text0 用 于 获取 HTML 标 签 中 的 文本 内 容 ，@ 符 号 用 于 获取 标签 中 属性 的 值 ， 详 细 的 xpath 语 法 可 以 参考 :http://www.w3school.com.cn/xpath/xpath_syntax.asp。 


9.3.2 ”使 用 谷歌 浏览 器 快速 创建 Xpath 路 径 


如 果 爬 取 每 一 个 页 面 都 要 逐步 分 析 Xpath 路 径 ， 那 则 不 是 太 麻烦 了 ? 有 没有 更 简单 的 方式 呢 ? 当然 有 ， 谷 歌 浏览 器 开发 者 工具 为 我 们 提供 了 一 些 方便 的 工具 。 打 开 “ 开 发 者 工具 ”之 后 ， 选 择 Elements 
选项 卡 ， 右 击 想 要 获得 其 Xpath 路 径 的 HTML 代 码 块 ， 选 择 Copy 一 Copy Xpath， 如 图 9-17 所 示 。 


现在 就 获得 了 该 代码 块 的 Xpath 路 径 ， 如 下 : 


//*[@id="categorys-2014"]/div[2]/div[1]/div[4] 


与 我 们 自己 通过 绝对 路 径 找到 的 Xpath 不 同 ， 这 一 次 谷歌 浏览 器 开发 者 工具 自动 生成 的 Xpath 是 利用 ID 这 个 属性 的 值 等 于 categorys-2014 这 个 相对 路 径 开 始 查找 的 〈 图 9-17 中 代码 的 第 四 行 ) 。 而 接 下 
来 的 几 个 div 则 相 较 我 们 的 路 径 多 了 方 括号 括 住 的 数字 ， 这 种 表示 方法 与 Python 中 的 列表 下 标 一 样 ， 代 表 的 是 某 个 HTML 层 级 中 的 第 几 个 div 块 。 比 如 这 里 选中 的 是 class 值 为 “item fore4” 这 一 行 ， 所 以 最 
后 一 个 代码 块 为 div[4]。 下 面 在 自己 的 代码 中 尝试 使 用 这 个 Xpath: 


lines = doc main.xpath('//*[@id="categorys-2014"] /div[2] /div[1]/div/h3') 
for i, main cat in enumerate (lines): 

sub cat list = main cat.xpath('a/text ()') 

sub cat url list = main cat.xpath('a/Q@href') 


结果 与 之 前 是 没有 任何 区 别 的 ， 读 者 不 妨 自 己 试验 一 下 。 


Chrome 文件 ”修改 视图 ”历史 记录 书签 其 他 人 窗口 帮助 六 会 目 59%[4》 3 月 13 日 周 日 13:36 C 
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民 Elements Console Sources Network Timeline Profiles Resources Security Audits 
A 区 Styles Computed Event Listeners DOM Breakpoints Properties 
<div class="w-spacer"></div> 
v<div id="categorys-2014” class="dorpdown” data-load="1"> 
p<div class="dt” clstag="h|keycount|2015|05a">.</div> element. style { 
v<div class="dd"> } 
v<div class="dd-inner"> 
*<div class="item forel" data-index: ' cstag="h|keycount|2015|19591a">-</div> 
p<div class="item ' data-index="2" clstag="h|keycount|2015|0502a">.< position: relative; 
<div class="item " data-index: * Clstag="h|keycount |2915 |85838 z-index: 1; 


stag 上 height: 31px; 
Add Attribute color: Dafff; 
Edit Attribute } 


| | Edit as HTML a, address, b, big, blockquote, body, center, cite, code, (index):50| 
data-index="5" clstag="h|keycol Copy outerHTML dd, del, div, dl, dt, em, fieldset, font, form, hi, h2, h3, h4, h5, 


class="item " data-index= clstag="h|keyco! h6, html, i, iframe, img, ins, label, legend, li, ol, p, pre, small 
class="item ' data-index="7" clsta Copy selector g 9 


span, strong, vu, ul, var { 
p<div class="item " data-index="8" clstal Hide el Copy XPath margin:p 
p<div class="item " data-index="9" clstag="h|keycot Delete element Cut element padding: >» 0; 
p<div class="item fore10” data-index="10" clstag="h|key' = } 
p<div class="item forell” data-index="11" clstag="h|key! ‘active Copy element aa ser agent stylesheet| 
p<diy class="item forel2” data-index="12” clstao="hlkeyl :hover 3 lay: #3 yy 
htmlroot61 body divtnav-2014 divw div#categorys-2014.dorpdown div| ,focus Em.tore4 LEEEEEEE ,display:s block; 


i Console :visited 


Fikte 


#categorys-2014 .dd-inner .item { index):58| 
border-left:»1ipx solid 国 #b61d1d; 


© <top frame> 和 Preserve log Scroll into View 


WV rarwy tw way Tesvurces te Server responueu WI a stacus vr 
© Uncaught ReferenceError: _gaq is not defined Break on... 
> 


图 9-17 使 用 开发 者 工具 创建 Xpath 


9.3.3 ”使 用 谷歌 浏览 器 复制 需要 JS 演 染 的 HTML 页 面 


就 像 本 章 开始 所 说 的 一 样 ， 现 代 网 站 、 网 页 的 制作 已 经 变 成 了 一 个 复杂 的 编程 工作 ， 很 多 页 面 的 动画 均 是 JavaScript 完 成 的 ， 比 如 www.jd.com 主 页 品类 菜单 的 展开 界面 就 是 这 样 ， 如 图 9-18 所 示 。 


图 9-18 中 的 两 个 图 从 上 到 下 ， 就 是 一 个 由 JS 演 染 的 页 面 ， 图 9-18 下 面 的 内 容 只 有 当 jJavascript 代 码 运 行 完毕 后 才 会 出 现 出 来 ， 而 不 会 在 我 们 从 www:jd.com 获 取 的 HTML 源 码 中 直接 体现 出 来 。 那 么 如 何 
获取 这 部 分 由 JS 渲染 的 HTML， 以 用 于 解析 呢 在 谷歌 浏览 器 开发 者 工具 中 ， 可 以 通过 右 击 class 值 为 dropdown-layer 的 节点 ， 选 择 Copy 一 Copy outerHTML 来 获取 已 经 渲染 好 了 的 HTML 代 码 块 ， 随 后 可 
以 打开 一 个 文本 编辑 器 (比如 Sublime Text) ， 创 建 一 个 新 的 文档 ， 为 刚才 复制 的 内 容 创 建 一 个 名 为 jd_dropdown.html 的 文件 ， 如 图 9-19 所 示 。 
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html class="root61 


* <head>-</head: 
v <body: ot 
*<div id="shortcut-2914">-</div ee 
p<div class="Ww"'>.</div. } display: none; 
Y<div id="nav-2014 
Y<div class="w ,root61 #categorys-2014 .dorpdown-layer { (Lindex) ;58! 
‘div class="w-spacer /div width: 999px; 
v<div id="categorys-2014” class="dorpdown” data-load="]1"> 
b<div class="dt” clstag="h|keycount|2015|05a">.</div: 
v<div class="dd 
<div class="dd-inner">.</div Add Attribute position: absolute; 


2 Classs dorpdown-layer” style= display: Edit as HTML EE \ett: 209px; 
iv: terRTM top: 45px; 
/div. Copy 4 Copy L Wad 90 pn 


<! 一 index_ok 一 > Copy selector backg round: * 口 #f7f7f7; 
*<div id="navitems-2014">..</div: Hide element Copy XPath border: » 1px solid MM#b61d1d; 
<! 一 index_ok 一 > Delete element Ct overflow: > hidden; 
div id="treasure"></div } 
span class="clr"></span :active Copy element .dorpdown-layer { 
Paste element 


html body snav-2014 div #categorys-2014 div.dd Err i i dt a 
:focus 下 


xvisited 


#categorys-2014 .dorpdown-layer { (index) :58| 
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Break on... > 


志 SublimeText File Edit Selection Find View Goto Tools Project Window Help 85%[ 幻 ，3 月 13 日 周 日 14:10 ”QQ 
4 “jd_dropdownhtml Y 


1 <div class="dorpdown-layer" style="display: none;"> <div class="item-sub" id="category-item-1" data-id="a"><div class="item- 
brands" ctLstag='"h |keycount|201519501d"><div cla brands-inner"><a href="http://mall.jd.com/index-1000006726.html" class="img-link" 
target="_blank"><img src="//misc.360buyimg.com/lib/img/e/blank.gif" data-lazy-img="//img10.360buyimg.com/vclist/jfs/ 
t2176/358/849877519/2801/3cb2806f/562f4971Na5379aba.jpg" width="83" height="35"></a><a href="http://haier.ijd.com/" class="img-link" 
target="_blank"><img src="//misc.360buyimg.com/lib/img/e/blank.gif" data-lazy-img="//img11.360buyimg.com/vclist/jfs/ 
t745/301/749830018/3039/9c96d09e/54d9eef9N5bb8d27f. jpg” width="83" height="35"></a><a href="http://jmall.ijd.com/shop/tcl/index. 
html?erpad_source=erpad" class="img-link" target="_blank"><img src="//misc.360buyimg.com/lib/img/e/blank " data-lazy-img="// 
img12.360buyimg.com/vclist/jfs/t742/296/752313526/2128/67ff82d9/54d9ef02N99d26435.jpg" width="83" height="35"></a><a href="http://mall.j 
com/index-100006006940.html?cpdad=1DLSUE" class="img-link" target="_blank"><img src="//misc.360buyimg.com/lib/img/e/blank.gif" data-lazy— 
img="//img13.360buyimg.com/vcList/jfs/t643/241/1441917153/1991/b7f68956/54d9ef10Nd206a236.jpg"” width="83" height="35"></a><a href="http:// 
malLtL.jd.com/index-10900001134.htmL" class="img-link" target="_blank"><img src="//misc.360buyimg.com/lib/img/e/blank.gif" data-lazy-img="// 
img14.360buyimg.com/vcList/jfs/t703/273/787686128/2436/5299f29d/54d9ef28N60328d44. jpg” width="83" height="35"></a><a href="htt 
com/ index-1000009941.htmtL" ctLass="img-Link" target="_blank"><img src="//misc.360buyimg.com/lib/img/e/blank.gif" data-lazy-—im 
img10.360buyimg.com/vclist/jfs/t820/181/3448454/2372/cbfc2389/54d9ef34N7cc61f4c.jpg" width="83" height="35"></a><a href="http://mall.jd. 
com/ index-1000001402.htmt" class="img-link" target="_blank"><img src="//misc.360buyimg.com/\ib/img/e/blank.gif" data-lazy-im 
img11.360buyimg.com/vclist/jfs/t475/29/1411588579/2230/64183923/54d9ef3eN99aef1f0.jpg" width="83" height="35"></a><a href= 
com/ index-1000002484.htmtL" class="img-link" target="_blank"><img src="//misc.360buyimg.com/lib/img/e/bla i data-lazy-im 
img12.368buyimg.com/vclist/jfs/t700/76/767891083/1472/c20aa638/54d9ef4cN4fe57f9b.jpg" width="83" height="35"></a></div></div><div 
class="item-channels" clstag="h|keycount|2815|85861b"><div class="channels"><a href="http://sale.jd.com/act/QGKqdHvopWietx.html" 
target="_blank"> 品 牌 日 <i>&gt;</i></a><a href="http://channel.jd.com/electronic.html"” target="_blank"> 家 电 城 <ij>&gt;</i></a><a href="http:// 
smarthome.jd.com/" target="_blank"> 智 能 生活 馆 <ij>&gt;</i></a><a href="http://sale.jd.com/act/rSRFscLk1LGhxXWw2H.html” target="_blank"> 京 东 净 化 馆 
i>&gt;</i></a><a href="http://sale.jd,.com/act/eRszkp8fyiS3Yt,.html"” target="_blank"> 京 东 帮 服务 店 <i>&gt;</i></a><a href="http://sale,jd.com/ 
act/WPzKnobpCLO1N.html"” target="_blank"> 值 得 买 精 选 <i>&gt;</i></a></div></div><div class="subitems" cLstag="h |keycount|201519501c"><d1L 
class="forel"><dt><a href="http://channel,jd,com/737-794,.html" target="_blank"> 大 家 电 <i>&gt;</i></a></dt><dd><a href="http://list,jd,com/ 
list,.html?cat=737,794,798"” target="_blank"> 平 板 电 视 </a><a href="http://list,jd,com/list,html?cat=737,794,870" target="_blank"> 空 调 </a><a 
href="http://list,.jd,.com/list,.html?cat=737,794,878" target="_blank"> 冰 箱 </a><a href="http://list,jd,com/list,.html?cat=737,794,880" 
target="_blank 衣 机 </a><a href="http://1list,jd,com/list.html?cat=737,794,823" target="_blank"> 家 庭 影院 </a><a href="http://list,jd,.com/lis 
.html?cat=737,794,965" target="_blank">DVD</a><a href="http://list.jd.com/list.html?cat=737,794,1199"” target="_blank"> 迷 你 音响 </a><a 
href="http://list.ijd.com/list.html?cat=737,794,12392" target="_blank"> 冷 柜 / 冰 吧 </a><a href="http://list.jd.com/list.html?cat=737,794,12401" 
target="_blank"> 酒 柜 </a><a href="http://list.jd.com/list.html?cat=737,794,877"” target="_blank"> 家 电 配 件 </a></dd></dl><dl class="fore2"><dt>< 
a href="http://channel.jd.com/737-794.html" target="_blank"> 厨 卫 大 电 <i>&gt;</i></a></dt><dd><a href="http://list.ijd.com/list. 
html?cat=737%2C13297%2C1380&amp 98_584926%40&amp;page=1l&amp;JL=3_%E4%BA%A7%E5%93%81%E7%B19%BB%E5%9E%8B_%E6%B2%B9%E7%83%9F%E6%9C%BA" 
target="_blank"> 油 烟 机 </a><a hre http://list.jd.com/list.html?cat=737,13297,13298" target="_blank"> 燃 气 灶 </a><a href="http://list.jd.com/ 
List.htmL?cat=737%2C13297%2C1300&ampiev=998_15280%40&samp;page=1l&amp;]JL=3_%E4%BAK%A7%E5%93%81%E7%B1%BB%E5%9E%8B_%E7%83%9F%E7%81%B6%E5%A5%97， 
E8%A3%85"” target="_blank"> 烟 灶 套 装 </a><a href="http://list.jd.com/list.html?cat=737,13297,1301"” target="_blank"> 消 毒 柜 </a><a href="http:// 
list.jd.com/list.html?cat=737,13297,13117"” target="_blank"> 洗 碗 机 </a><a href="http://list.jd.com/list.html?cat=737%2C13297%2C1706&amp; ev=9' 
8_28702%40&amp;page=1&amp;]L=3_%E4%BA%A7%E5%93%81%E7%B1%BB%E5%9E%8B_%E7%94%B5%E7%83%AD%E6%B0%B4%E5%99%A8"” target="_blank"> 电 热水器 </a><a 
href="http://List.jd.com/List.htmL?cat=737%2C13297%2C1706&amp;ev=998_28703%40&amp;page=1l&ampj;]JL=3_%E4%BA%A7%E5%93%81%E7%B1%BB%E5%9E%8B_%E 
%87%83%E6%B0%94%E7%83%AD%E6%B6%B4%E5%99%A8" target="_blank"> 燃 气 热水器 </a><a href="http://cotLL.jd.com/List.htmL?sub=1661"” target="_blank"> 
们 入 式 厨 电 </a></dd></dL><dL class="fore3"><dt><a href _btLank"> 厨 房 小 电 <j>&gt;</i></a></dt><dd>< 


html?cat=737,752,757” target="_blank"> 电 磁 炉 </a><a href='"http:/V/List.jd.com/List.htmt?cat=737,752,881" targe lank"> 电 压力 锅 </a><a 
href="http://list.jd,.com/list,.html?cat=737,752,756"” target="_blank"> 豆 浆 机 </a><a href="http://List.jd,com/List.htmL?cat=737,752,761" 
Une 1, Column 1 


图 9-19 ”找到 并 复制 动态 页 面 的 HTML 代 码 


然后 按照 9.3.2 节 的 方法 ， 找 到 我 们 想 要 的 HTML 元 素 ， 获 取 其 Xpath 路 径 ， 如 图 9-20 所 示 。 
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RD Elements Console Sources Network Timeline Profiles Resources Security Audits 
bp <div cass= W >-</div: 
v<div id="nav-2014"> 
v<div class="w"> 
<div class="w-spacer"></div 
Y<div id="categorys-2014" class="dorpdown” data-load="1 
p<div class="dt” clstag="h|keycount|2015|05a">.</div> 
v<div class="dd index) :0 
p<div class="dd-inner">.</div 
lor: #666; 
ve<div class="dorpdown-layer” style="display; none;"> Dt a 
p<div class="item-sub” id="category-item-1" data-id="a" data-lazy-img-install="1">.</div> 
p<div class="item-sub" id="category-item-2" data-id="b">..</div: re 所 _ 
v<div class="item-sub" id="category-item-3" data-id='c » address, b, pe - 
p<div class="item-brands” ctstag='"h|keycount1201510503d">~</div: Add Attribute et, J 
p<div class="item-channels" ctstag="h|keycount1291519503b">..</div x 
vdiv class="subitems" ctstag="h|keycount1291519503c Edit as HTML 


pedl class="forel">.</dl> Copy outerHTML 


v<dl class="fore2" Copy selector 
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图 9-20 ”获取 Xpath 路 径 


比如 这 里 想 要 获取 每 个 大 分 类 中 的 子 分 类 ， 以 图 9-20 为 例 ， 即 为 获取 “电脑 、 办 公 ” 大 分 类 中 “电脑 配件 ”的 子 分 类 ， 其 Xpath 为 : 


//*[Q@id="category-item-3"]/div[3]/d1[2] /dt/a 


可 能 细心 的 读者 已 经 发 现 了 ， 在 这 个 dropdown 的 列表 中 ， 每 一 个 大 分 类 对 应 的 子 分 类 所 弹出 的 菜单 中 id 这 个 属性 的 值 是 不 同 的 由]， 比 如 第 三 大 类 对 应 的 就 是 category-item-3， 那 么 想 要 遍历 15 个 大 分 
类 就 需要 逐个 进行 解析 了 ， 现 在 为 了 解析 这 些 大 分 类 下 属 的 子 分 类 ， 需 要 使 用 下 面 的 代码 : 


with open('/Users/jilu/Downloads/jd dropdown.html', 'r') as fr: 
content = fr.read() 
doc = etree.HTML (content) 
for x in range(l, 16): 
layerl = doc.xpath('//*[@id="category-item-{}"]/div[3]/d1' .format (x)) 
for layer2 in layerl: 
cat = {"cat name": (layer2.xpath("dt/a/text()") or 
layer2.xpath ("dt/span/text ()")) [0], 
"url": (layer2.xpath("dt/a/@href") or [''])[0], 
"sub cat name": dict (zip(layer2.xpath ("dd/a/text ()"), 
layer2.xpath ("dd/a/@href")))} 


在 上 面 的 代码 中 ，layer1=doc.xpath(//*[@id="category-item-%s"]/div[3]/dl'%x) 这 一 行使 用 字符 串 格式 化 的 方法 连续 生成 了 15 个 不 同 的 Xpath， 对 应 15 个 大 分 类 。 之 后 的 解析 就 很 简单 了 ， 只 要 找 
到 想 要 解析 的 子 分 类 ， 然 后 在 谷歌 浏览 器 中 复制 对 应 的 Xpath ， 去 掉 在 layer1 这 里 已 经 存在 的 前 缀 就 可 以 了 ， 文 本 内 容 最 后 以 “text()” 结 尾 ， 属 性 值 以 “@ 属 性 名 ”结尾 。 相 信 读 者 自己 党 试 几 次 就 可 以 获 
得 正确 的 Xpath 路 径 。 最 后 ， 抓 取 整 个 京东 主页 商品 分 类 的 完整 代码 如 下 : 


# ! /usr/bin/python 
# ~*~ Coding utf-8 ~*= 


from __ future _ import print function 
import requests 

from lxml import etree 

import json 

from collections import defaultdict 


import sys 


reload (sys) 
sys.setdefaultencoding ("utf-8") 


def get jd mean page list(): 
result dict = {} 
resp = requests.get ('http://www.jd.com') 
doc main = etree.HTML (resp.content) 
lines = doc main.xpath('//*[@id="categorys-2014"] /div[2] /div[1]/div/h3') 
for i, main cat in enumerate (lines): 
sub cat list = main cat.xpath('a/text ()') 
sub cat url list = main cat.xpath('a/Q@href') 
result dict[i + 1] = {"mean cat": dict(zip(sub cat list, sub cat url list)), 'sub cat list': []} 
with open('/Users/jilu/Downloads/jd dropdown.html', 'r') as fr: 
content = fr.read() 
doc = etree.HTML (content) 
for x in range(l, 16): 
layerl = doc.xpath('//*[@id="category-item-{}"]/div[3]/d1'.format (x)) 
for layer2 in layerl: 


cat = {"cat name": (layer2.xpath("dt/a/text()") or 
layer2.xpath ("dt/span/text ()")) [0], 
"url": (layer2.xpath("dt/a/@href") or [''])[0], 


"sub cat name": dict (zip (layer2.xpath ("dd/a/text ()"), 
layer2.xpath ("dd/a/@href")))} 
result dict[x]['sub cat list'] .append (cat) 
return json.dumps (result dict, ensure ascii=False, indent=4) 


i vate == * Wain 
Print (get jd mean page list()) 


运行 的 结果 (节选 一 小 部 分 ) 如 下 : 


mim { 
"mean cat": { 
"家 用 电器 ": "http://channel.jd.com/electronic.html" 
] 
"sub cat list": [ 
{ 
nurl": "http://channel.jd.com/737-794.html", 
"cat_name": "大 家 电 "， 
"sub cat name": { 
5 冰箱 ": "http://list.jd.com/list.html?cat=737,794, 878", 
" 酒 柜 ": "http://list.jd.com/list.html?cat=737, 794,12401", 
"DVD": “http://list.jd.com/list.html?cat=737,794, 965", 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


nurl": "http://channel.jd.com/737-794.html", 
"cat_name": " 厨 卫 大 电 " 
"sub cat name": { 
"消毒 稻 ": "http://1ist.jd.com/list.html?cat=737,13297,1301", 
4 t": "http://list.jd.com/list.html?cat=737,13297,13298", 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


} 


} 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
] 
}, 
mon 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


四 这 仅仅 是 因为 www.jd.com 这 个 网 站 是 如 此 编写 的 ， 并 不 表示 其 他 的 网 站 也 会 这 样 编写 。 


9.4 实战 : 爬 取 京东 商品 品类 及 品牌 列表 


在 本 章 前 几 节 的 例子 中 ， 讲 解 了 完整 地 获取 京东 主页 主要 分 类 及 二 级 分 类 的 方法 ， 本 节 将 尝试 使 用 刚刚 学 习 到 的 知识 做 一 些 有 趣 的 事情 。 假 如 我 是 一 个 没 见 过 什么 世面 的 乡下 人 ， 那 么 我 应 该 如 何在 短 
时 间 之 内 了 解 市 面 上 主流 的 商品 品牌 呢 ? 这 样 我 与 其 了 他 人 一 起 逛 商场 时 就 不 至 于 尴 从 了。 让 我 们 利用 本 章 前 面 几 节 已 经 获得 的 京东 二 级 分 类 列表 ， 逐 一 地 疏 取 其 品牌 列表 ， 页 面 的 品牌 一 栏 如 图 9-21 所 示 。 


龟 ”Chrome 文件 修改 视图 历史 记录 书签 其 他 人 窗口 帮助 省 会 目 100% 区 3 月 13 日 周 日 20:11 QQ 
属 Arct x “< 大 一 x [Com x 国 shax 站 muh x 字符 x “加 谈 全 x [Titar x Awsx Othin x 整理 x ， 回 下 种 x ， 因 人 x 国有 x 的 sx 网 东 x 四 8 x 
list.jd.com/list.html?cat=670%2C677%2C679&go=0 2 二 吧 三 


magievaner 退出 的 订 的 京东 京东 会 员 。” 企业 采购 。 加 手机 京东 \，。 关注 京东 \/， ”客户 服务 \/ 网 站 导航 \/ 


COM 超 簿 本 游戏 显卡 通话 平板 存储 惊天 满 减 企 网 电视 投影 惊天 神 价 电源 大 


全 部 商品 分 类 美 妆 馆 超市 全 球 购 闪 购 团购 拍卖 


“GOCer 宏 基 投 影 三 重 礼 ! 
铜牌 1549 再 送 fury 内 存 ! 5 规 970 好 价 3 微星 970 限时 送 8G 内 存 


】 胃 基 投影 米 新 采购 节 
Rees) ¥1648.00 ¥2599.00 ¥2599.00 “ 大 促 高 瀚 期 ,下 单 最 高 减 800 


立即 抢购 立即 抢购 立即 抢购 你 了 ! 999 元 的 笔记 本 还 锡 
大 该 显 示 吕 每 满 100 减 1 
电脑 、 办 公 > ”电脑 配件 


显卡 商品 筛选 。 共 1048 个 商品 
华硕 (ASUS) 技嘉 (GIGABYTE) 七 彩虹 (Colorful) 微星 (MSI 索泰 (ZOTAC) 蓝宝石 (Sapphire) 讯 景 (XFX) 


员 众 (Inno3D) 盈通 (yeston) 这 兰 (Dataland) 昂达 (ONDA) 铭 影 (MGOY) 铭 理 (MAXSUN) 丽 台 (LEADTEK) 
800-999 1000-1499 1500-1999 2000-2999 3000 以 上 
性 能 3 游戏 家 用 /办 公 专业 
NVIDIA 芯 片 G210 特价 区 GT620 GTX750TI GT640 GTX650 GT610 GTX750 GTXTITAN GT740 GT730 GTX970 
特价 区 R7 250 R7 240 R9 280X R7 260X R9 270X R9 290X R9 27( R9 280 R9 285 R5 230 HD 6000 系 列 
游戏 特色 影驰 HOF 华硕 STRIX 技嘉 G1 GAMING 索泰 至 苯 七 彩虹 iGame 影 她 GAMER 迪 兰 Devil 


更 多 选项 ( 显存 容量 等 ) 


ED wies an 类 中 报 索 。 确定 


由 ”北京 朝阳 区 四 环 到 五 环 之 间 京东 配送 | 货 到 付款 仅 星 示 有 货 


list.jd.com/list.html?cat=670,677,679&ev=%40483_525511&go=08&JL=3_AMD 芯 片 _.R9 270 


图 9-21 京东 品类 列表 


在 jd_spider.py 文 件 中 增加 下 面 这 个 函数 : 


def get jd brand list (url): 

resp = requests.get (url) 

doc = etree.HTML (resp.content) 

sub doc = doc.xpath(‘//*[@id=”J selector”]/div[2]/div/div[2]/div[2]/u1’) 

brand list = [] 

for item in sub doc: 

for x in zip(item.xpath (“1i/@id’), 
item.xpath (‘li/a/text ()’), 
item.xpath (‘li/a/@href’)): 
brand list.append (x) 


return brand list 


这 个 函数 需要 一 个 url 作 为 参数 ， 这 个 url 就 是 某 一 个 具体 的 二 级 分 类 的 网 址 ， 通 过 使 用 谷歌 开发 者 工具 ， 可 以 很 容易 地 获得 品牌 列表 的 Xpath 路 径 : 


//*[@id="”J selector”]/div[2]/div/div[2] /div[2]/ul 


出 人 意料 的 是 京东 的 商品 品牌 似乎 有 一 个 编号 ， 当 我 在 查看 品牌 列表 时 ， 发 现 了 每 一 个 品牌 都 有 一 个 id 属 性 ， 这 个 属性 均 以 brand- 开 头 ， 后面 接 一 个 4 位 或 5 位 的 数字 ， 就 像 图 9-22 中 高 亮 显 示 的 那样 。 


丹 ” Chrome 文件 修改 ”视图 ”历史 记录 书签 其 他 人 窗口 帮助 内 会 上 日 10oxE 3 月 13 日 周 日 20:41 QQ 汪 


改 Arct x “大量 x， 站 Com x 国 shar x 站 muh x 六 3 符 x 国 谈 售 x [Titar x Aws: x Qthin: x 辟 理 x “” [加班 得 x 因 人 用 x 国 用 机 x 的 x 网 训 + 示 x 四 时 + x 路 
list.jd.com/list.html?cat=670%2C677%2C679&go=0 Y | 得 心 


华硕 (ASUS) 技嘉 (GIGABYTE) 七 彩虹 (Colorful) 微星 (MSI) 索泰 (ZOTAC) 蓝宝石 (Sapphire) 讯 景 (XFX) 多 选 


[Liwbrand-8551 130 x 26px bn) = 【Dataland) 昂达 (ONDA) 铭 影 (MGOY) 铭 斑 (MAXSUN) 酮 台 (LEADTEK) 


500-799 800-999 1000-1499 1500-1999 2000-2999 3000 以 上 确定 
游戏 家 用 /办 公 
NVIDIA 芯 片 G210 特价 区 GT620 GTX750TI GT640 GTX650 GT610 GTX750 GTX TITAN GT740 GT730 GTX970 
AMD 芯 片 特价 区 R7 250 R7 240 R9 280X R7 260X R9 270X R9 290X R9270 Rg9 280 R9 285 R5 230 HD 6000 系 列 
游戏 特色 影驰 HOF 华硕 STRIX 技嘉 G1 GAMING 索泰 至 莫 七 彩 4TiGame 影驰 GAMER 这 兰 Devil 


更 多 选项 显存 容量 等 ) 


推广 商品 Es iiew raya 在 当前 分 类 中 搜索 | 确定 


Elements Console Sources Network Timeline Profiles Resources Security Audits 


<! 一 商品 簿 选 一 > 
p<div class="s-title™ clstag="thirdtype|lkeycount|thirdtype|select">..</div: 
v<div class="]_selectorLine s-brand” data-id="100001 
v<div class="sl-wrap"> 
p<div class="sl-key">.</div> 
v<div class="sl-value } 
p<ul class="sl-b-letter ] brandLetter">.</ul media="all”" 
div class="clr"></div “Selector .s-brand .sl-v-list ,v-fixed { 
ve<div class="sl-v-list height: 60px; 

Y<uL class="]_valyueList v-fixed” id="brandsArea”> 
<1i "brand-19962” data-initiat='"y 
<li ‘brand-8551” data-initial="h" 
<li brand-8900”" data-initial="]j 
<li brand-22215” data-initial="q overflow: » hidden; 
Wi brand-17443” data-initial="w" Zoom: 1; 
<li "brand~16546” data-initial="Ss">..« position: relative; 
Ui brand-10864" data-initial="\ heightt—30px+ 
<li brand-18866" data-initial="x">.</\i> 
<1i 'brand-40012” data-initiat='e">-</\i> 
<1i brand-46678"” data-initial="y /i> 
<li brand-19949” data-initial="y">.</\li> 


dlrnnd KNMAN Amtm kmteimlml ns 


如 4 
html body 拉 searchWrap 州 container 州 Selector div div div,si-value div.sl-v-list UCCUIL NAC li#brand-19962 


i Console 


Styles Computed Event Listeners DOM Breakpoints Properties 


elenent.style { 


media="all 
Selector .sl-v-list ul { 
float: left; 


B="all" » m 
ul 77ui-base/1,.9,0r. Css .myid/s:2| 
list-style: pnone; 


© YB <top frame> 了 Preserve log 

WW rartey Su uau TeyUur tes Ue server TEsponucu WiC o SUarus Ur Wo% TVNUC TOunu WCCPIT 7 OL WLIOULUES CON C CEPST FUT CHU UHINSET SET UIS US JUS CONSET CIS UN UN UOT COSIVOI ONLILUO 1 HEILLO I SSEOYV SIVO 
© Uncaught ReferenceError: _gaq is not defined ~ ni | 

》 


9-22 ”关于 品类 列表 新 的 发 现 


不 管 怎么 样 先 把 它们 都 抓 下 来 吧 。 获 取 文 本 与 连接 的 Xpath 与 之 前 的 一 致 。 最 后 还 需要 一 个 函数 对 京东 首页 每 个 子 品牌 的 url 调 用 get jd_brand_list0 函 数 。 除 此 之 外 ， 我 还 “顺便 ”把 每 个 品类 的 一 些 其 
他 属性 抓 了 下 来 ， 比 如 价格 区 间 的 划分 ， 或 者 像 图 9-22 中 的 性 能 、NVIDIA 芯 片 、AMD 芯 片 等 行 的 信息 ， 完 整 的 代码 如 下 : 


# ! /usr/bin/python 
# -*~ coding: utf-8 -*— 


from __ future __ import print function 
import requests 

from lxml import etree 

import json 

from collections import defaultdict 


import sys 


reload (sys) 
sys.setdefaultencoding ("utf-8") 


def get jd mean page list(): 

result dict = {} 
resp = requests.get ('http://www.jd.com') 
doc main = etree.HTML (resp.content) 
lines = doc main.xpath('//*[@id="categorys-2014"] /div[2] /div[1] /div/h3') 
for i, main cat in enumerate (Lines) : 

sub cat list = main cat.xpath('a/text ()') 

sub cat url list = main cat.xpath('a/@href') 

result dict[i + 1] = {"mean cat": dict(zip(sub cat list, sub cat url list)), 

"sub cat list':; []} 

with open('/Users/jilu/Downloads/jd dropdown.html', 'r') as fr: 

content = fr.read() 
doc = etree.HTML (content) 
for x in range(l, 16): 

layerl = doc.xpath('//*[@id="category-item-{}"]/div[3]/d1'.format (x)) 

for layer2 in layerl: 

cat = {"cat name": (layer2.xpath("dt/a/text()") or 
layer2.xpath ("dt/span/text ()")) [0], 
"url": (layer2.xpath("dt/a/@href") or [''])[0], 
"sub cat name": dict (zip (layer2.xpath ("dd/a/text ()"), 
layer2.xpath ("dd/a/Q@href") ) ) } 
result dict[x]['sub cat list'] .append (cat) 

return json.dumps (result dict, ensure ascii=False, indent=4) 


def get jd brand list (url): 

resp = requests.get (url) 

doc = etree.HTML (resp.content) 

sub doc = doc.xpath('//*[@id="J selector"]/div[2]/div/div[2]/div[2]/u1') 

brand list = [] 

for item in sub doc: 

for x in zip(item.xpath('1i/@id'), 
item.xpath('li/a/text () '), 
item.xpath('li/a/@href')): 
brand list.append (x) 


sub doc = doc.xpath('//*[@id="J selector"]/div/div') 
other dict = defaultdict (list) 
for i, item in enumerate (sub doc): 
title = item.xpath ("div/span/text () ") 
for x in zip(item.xpath('div/div/ul/l1i/a/text () '), 
item.xpath ('div/div/ul/1i/a/@href')): 
other dict [title[0]] .append (list (x)) 
return brand list, other dict 


def run(): 
jd cat dict = get jd mean page list() 
for mean key, mean value in jd cat dict.items () : 


for sub cat item in mean value.get ("sub cat list"): 
sub cat item['sub cat list'] = [] 


for sub cat key, sub cat value in sub cat item.get ("sub cat name") .items () : 


brand list, other dict = get jd brand list (sub cat value) 
sub cat item['sub cat list'].append( 
{"sub cat name": sub cat key, "sub cat url": sub cat value, 
"brand list": brand list, "other dict": other dict}) 
print (sub cat key, sub cat value) 
with open('/Users/jilu/Downloads/jd cat brand all.json', 'a') as fw: 
fw.write (json.dumps (jd cat dict, ensure ascii=False, indent=4)) 
if name 一 /main ': 
Fun () 


最 终 保存 到 jd_cat_brand_alljson 的 结果 如 下 ， 由 于 结果 太 长 ， 这 里 只 展示 了 部 分 内 容 : 


nlln: { 


"http://channel .jd.com/freshfood.html", 
ttp://channel .jd.com/food.html", 
http://china.jd.com", 

"http://channel .jd.com/wine.html" 


"sub cat list": [ 
{ 
"url": "http://channel.jd.com/wine.html", 
"sub cat list": [ 
i 
“sub cat url": 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


以 上 内 容 在 随 书 附送 的 代码 中 都 能 找到 完成 代码 ， 感 兴趣 的 读者 不 妨 先 自己 尝试 一 下 ， 再 参考 附送 的 代码 进行 调试 ， 而 且 由 于 京东 的 商品 内 容 可 能 会 随 着 时 间 的 推移 有 所 改变 ， 


能 会 与 我 给 出 的 结果 稍 有 不 同 ， 这 点 是 很 正常 的 。 


在 结果 中 可 以 看 到 ， 在 “家 用 电器 ”， “冰箱 ” 的 分 类 中 ， 有 “海尔 ”“ 美 的 ” “西门 子 ”等 18 个 分 类 ,在 “灯具 ”和 “ 简 灯 射 灯 ” 的 分 类 中 有 “时 
读者 可 以 将 整个 JSON 文 本 粘贴 到 一 些 在 线 的 JSON 查 看 器 中 [1]， 这 样 就 能 有 一 个 折 双 代码 的 功能 ， 以 方便 按 结 构 查看 JSON 的 内 容 ， 就 像 图 


壤 ” Chrome 文件 修改 视图 历史 记录 书签 ”其 他 人 窗口 ”帮助 


属 Arch ， 吕 大 型 ( [com， 国 Shar 站 mult 字符 :图 谈 全 {0 Titan Aws Othink 整理 [ ” [器 班 得 ， 因 使 用 国 朋 机， 的 畔 于 


9-23 所 示 的 一 样 。 


下 士 “ 


因此 实际 得 到 的 结果 可 


“飞利浦 ” “佛山 照明 ”等 18 个 分 类 ， 等 等 ， 


园 京东 (“ 困 吕 上 不“ [加 ontin 《3 4 x ,onlin , 团 subh 


名 www.bejson.com/jsonview2/ 


视图 ]SON 数 据 
a{}JsoN 


Bf}1 
日 {] mean_cat 
理 家 用 电器 ; "http:/ichannel.jd.com/electronic.html”* 
国 [] sub_cat_list 
g{}2 
9{}3 
a{}4 
3{) mean_cat 
下 家 居 : “http://channel.jd,com/home,html" 
是 家 装 ; "httpWchanneljd,comydecoration.html” 
和 家 兵 ; "http:/ichannel,jd,.comvfumniture,html" 
是 厨 共 : "http://channel.jd.comikitchenware.html" 
日 [ ] sub_cat_list 
a{}o 
9{}1 
@{}2 
a{}3 
a{}4 
mn url : "http://channel.jd.com/1620-1623.htmr" 
[J]sub_cat_list 
a{}o 
um sub_cat_url : "http:/listjd.com/list.html?cat=1620,1623,11971" 
[J other_dict 
S[ Jbrand list 
ea[]o 
m0: "brand-11287" 
1:" 二 十 (NVC) ” 
m 2: "list.html?cat=1620,1623,11971&ev=%40exbrand%5F11287&go=0&JL=3_ 吕 牌 _ 震 士 (NVC) " 
a[]1 
um 0: "brand-6742" 
和 1;" 飞利浦 (PHILIPS) * 


到 2: "list.html?cat=1620,1623,11971&ev=%40exbrand%5F6742&go=08&JL=3_ 品 洲 _ 飞 利 浦 (PHILIPS) “ 


a[]2 
1 "brand-7012” 
: " 俩 山 昭明 " 
:listhtml?cat=1620,1623,11971&ev=%40exbrand%5F7012&go=0&JL=3_ 品 降 佛山 昭明" 


GO! J Next Previous 


图 9-23 ”使 用 可 视 化 工具 格式 化 JSON 数 据 


[1 比如: http://www.bejson.com/jsonview2/。 


第 10 章 ”数据 科学 的 第 三 方 库 介绍 


拥有 众多 数据 科学 相关 的 第 三 方 库 是 Python 受到 青睐 的 主要 原因 ， 这 其 中 又 以 Numpy、Pandas 和 Scikit-learn 三 者 最 为 著名 。Numpy 是 Python 科学 计算 库 ， 它 为 Python 提供 了 矩阵 运算 


科学 计算 的 基础 。Pandas 是 Python 统计 分 析 库 ， 可 以 方便 地 进行 一 些 数据 的 统计 分 析 ， 而 且 不 需要 额外 的 数据 库 。scikit-learn 是 Python 机 器 学 习 库 ， 里 盏 


的 能 力 ， 是 


内 置 的 算法 基本 上 涵盖 了 大 部 分 常 


的 机 器 学 习 


算法 ， 非 常 适 合 新 手 用 于 入 门 机 器 学 习 。 本 章 将 围绕 这 三 个 库 进行 讲解 ， 掌 握 了 这 些 工具 就 能 够 在 面 对 更 复杂 的 数据 科学 任务 时 游 思 有 余 了 。 


10.1 Numpy 入 门 和 实战 


Numpy 是 Python 第 三 方 库 中 最 常用 的 科学 计算 库 ， 所 谓 科 学 计算 往往 是 指 类 似 Matlab 那 样 的 矩阵 运算 能 力 。 这 其 中 包括 多 维 数组 对 象 、 线 性 代数 计算 ， 以 及 一 个 高 性 能 的 C/C+ + 语言 内 部 实现 。 而 
Numpy 完 全 拥有 上 面 的 所 有 特性 ， 而 且 还 有 很 多 方便 的 快捷 函数 ， 是 做 数据 科学 必 不 可 少 的 工具 。 


一 提 到 线性 代数 ， 可 能 会 有 很 多 读者 觉得 很 难 ， 并 且 也 会 觉得 似乎 没有 学 习 的 必要 。 不 过 ， 当 前 其 实 有 很 多 数据 挖掘 算法 都 是 通过 线性 代数 的 计算 来 实现 的 。 线 性 代数 一 个 最 明显 的 优势 就 是 用 矩阵 乘 
法 代 蔡 循环 可 以 极 大 地 提高 运算 速度 。 如 果 读 者 拥有 一 定 的 Matlab 的 使 用 经 验 ， 那 么 就 能 更 好 地 理解 本 节 的 内 容 ， 即 便 之 前 没有 任何 关于 线性 代数 的 知识 ， 也 可 通过 本 节 的 描述 使 用 这 些 代码 。 


本 节 将 会 使 用 Python 的 第 三 方 库 Numpy， 读 者 可 以 使 用 下 面 的 代码 进行 安装 : 


$pip install numpy 


10.1.1 Numpy 基 础 


在 Numpy 中 ， 最 主要 的 数据 结构 就 是 ndarray， 这 个 数据 结构 不 仅 可 以 处 理 一 维 数组 ， 还 可 以 处 理 多 维 数组 。 比 如 下 面 的 数组 就 是 一 个 二 维 数组 : 


通常 我 们 称 数组 的 维度 为 “ 秩 (rank) ” ， 可 以 通过 下 面 的 代码 创建 并 查看 一 个 数组 的 秩 : 


import numpy as np 

a= np.array([(1, 2), (3.4, 5)]) 
print (a) 

print (a.ndim) 


其 输出 的 结果 为 : 


习惯 上 我 们 会 将 numpy 重 命名 为 np 并 进行 使 用 。 创 建 二 维 数组 就 使 用 Python 中 “列表 的 列表 ”这 种 结构 ， 如 果 创 建 三 维 数组 就 是 使 用 “列表 中 的 列表 中 的 列表 ”的 结构 。 有 时 为 了 方便 ， 我 们 也 会 使 
些 手段 快速 创建 数组 ， 可 参考 下 面 的 代码 : 


np.arange (15) .reshape (3, 5) 
np.arange (1, 30, 5) 
np.arange (0, 1, 0.2) 
np.linspace (0, np.e * 10, 5) 
np.random.random( (3, 2)) 


mpnNnop 
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ft 0 6.79570457 13.59140914 20.38711371 27.18281828] 
E 

[ 

[ 


[US 


m Po 


[ 0.88874506 0.59448541] 
.59012432 0.4719409 ] 


0 
0.66380548 0.28702564]] 


使 用 np.arange() 的 方式 与 Python 的 range() 类 似 ， 会 生成 一 个 ndarray 类 型 的 数组 ， 只 不 过 ndarray 类 型 的 reshape() 方 法 会 将 原始 的 一 维 数组 改变 为 一 个 二 维 数组 ， 比 如 上 面 的 例子 中 就 将 其 改变 为 
3x5 的 二 维 数组 了 。 与 Python 的 range() 函 数 稍 有 不 同 的 是 ，np.arange() 支 持 小 数 的 步 长 ， 比 如 上 例 中 的 np.arange(0,1,0.2) 就 生成 了 小 数 步 长 的 数组 ， 而 使 用 Python 的 range 时 则 会 报错 。Numpy 还 提供 
了 一 个 强大 的 函数 np.linspace(0， 这 个 函数 的 功能 类 似 arange()， 但 是 第 三 个 参数 不 是 步 长 ， 而 是 数量 。 这 个 函数 可 以 按照 参数 中 需要 生成 元 素 的 数量 自动 选择 步 长 ， 上 例 中 的 qd 就 是 一 个 例子 。 另 外 
Numpy 中 也 提供 了 与 math 模 块 中 一 样 的 两 个 常量 ， 即 np.e 和 np.pi。np.e 代 表 自 然 底数 ，np.pi 是 圆周 率 。 最 后 np.random.random0) 函 数 提供 了 直接 生成 随机 元 素 的 多 维 数组 的 方法 ， 本 节 的 后 续 部 分 会 
经 常 使 用 这 个 函数 。 


在 了 解 了 如 何 使 用 Numpy 创 建 数 组 之 后 ， 再 来 看 看 如 何 查 看 数组 的 各 项 属性 ， 参 考 下 面 的 代码 : 


a.size 
type (a) 


a = np.arange (15) .reshape (3, 5) 
print('a ', '=', a) 
print ('a.ndim ', '=', a.ndim) 
print ('a.shape ', '=', a.shape) 
print('a.dtype.name ', '=', a.dtype.name) 
print ('a.itemsize ， '=', a.itemsize) 
print ('a.size 1 adize) 
print ('type (a) "= type(a)) 
其 输出 的 结果 为 : 
a 2 | 

| | 

[10 11 12 13 14]] 
a.ndim =2 
a.shape = (3, 5) 
a.dtype.name = int64 
a.itemsize =8 


<type 'numpy.ndarray'> 


其 中 ndim() 函 数 会 返回 数组 的 秩 数 ，shape() 函 数 会 返回 数组 的 形状 。dtype.name 属 性 是 数组 中 数据 的 类 型 ，itemsize 是 数据 类 型 占用 的 内 存 空间 ，size 则 是 数组 中 总 共有 多 少 个 元 素 。 


可 能 有 读者 注意 到 了 ，numpy 的 对 象 在 打印 时 会 自动 格式 化 ， 二 维 数组 则 会 以 和 矩阵 的 方式 打印 出 来 。 不 仅 如 此 ， 当 数组 非常 大 以 至 于 不 能 够 完整 地 显示 出 来 的 时 候 ，numpy 还 会 缩 略 打印 结果 ， 可 参考 
如 下 代码 : 


print (np.arange (10000) .reshape (100, 100)) 


上 面 的 代码 中 创建 了 一 个 100x100 的 二 维 数组 ， 显 然 是 无 法 在 一 个 屏幕 下 打印 出 来 的 ， 而 实际 上 打印 的 结果 是 下 面 这 个 样子 : 


[[ 0 再 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 97 98 99] 
[ 100 101 102 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 197 198 199] 
[ 200 201 202 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 297 298 299] 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 
[9700 9701 9702 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 9797 9798 9799] 
[9800 9801 9802 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 9897 9898 9899] 
[9900 9901 9902 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 9997 9998 9999]] 


程序 只 打印 出 了 上 下 左右 各 3 行 / 列 的 数据 ， 其 余 的 数据 只 以 “http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/16309/OEBPS/Text/...” 代 
这 非常 便于 我 们 进行 程序 调试 。 除 了 前 文 所 介绍 的 常规 的 创建 数组 的 方法 之 外 ，Numpy 还 可 以 快速 地 创建 一 些 特定 的 数组 ， 参 考 下 面 的 代码 : 


让 


回 


a np.zeros((3, 4)) 
b np.ones((2, 3, 4), dtype=np.int64) 
c= np.empty((4, 5)) 


) 
print ('zeros\n', a) 
) 
) 


print('ones \n', b 
print('empty\n', c 


使 用 zeros0 函 数 可 以 创建 一 个 对 应 维度 的 全 零 矩 阵 门 ，ones( 则 是 创建 全 1 矩阵 ，empty(0 函 数 会 自动 创建 一 个 由 随机 的 小 值 组 成 的 矩 咱 ， 上 面 代码 的 运行 结果 如 下 : 


“2 人 33T18-6077 -但 12337T8=017 1.77863633e-322 0.00000000e+000 
0.00000000e+000] 
0.00000000e+000 4.05003039e-116 2.2040211l8e-314 2.20517042e-314 
-1.51628733e+150] 
2.20513185e-314 2.20258264e-314 0.00000000e+000 0.00000000e+000 
0.00000000e+000] 
-1.11080065e-181 2.20519966e-314 6.94258207e-310 0.00000000e+000 
0.00000000e+000]] 


值得 注意 的 是 ， 无 论 是 哪 种 创建 数组 /矩阵 的 方法 ， 都 支持 一 个 dtype 参 数 ， 我 们 可 以 通过 为 数字 指定 一 种 数据 类 型 来 指定 这 个 数组 的 元 素 类 型 。Numpy 的 数组 只 能 包含 一 种 类 型 的 数据 ， 并 且 是 布尔 
型 、 整 形 、 无 符号 整形 、 浮 点 型 、 复 数 型 中 的 一 种 。 除 了 数字 的 类 型 之 外 ， 还 有 精度 的 区 分 ， 比 如 上 面 代码 使 用 了 np.int64 表 示 64 位 整形 ， 取 值 的 区 间 从 -9223372036854775808 到 
9223372036854775807。 当 然 ， 还 有 更 低 的 32 位 、16 位 、8 位 等 ， 详 细 的 数据 类 型 列表 可 以 参考 : https://docs.scipy.org/doc/numpy-dewWuserbasics.types.html。 


[中 线性 代数 中 通常 称 二 维 数组 为 矩阵 。 


10.1.2 Numpy 基 本 运算 


Numpy 数 组 运算 的 基本 原则 就 是 “ 按 元 素 运算 ”， 这 一 点 可 能 与 我 们 的 直觉 稍微 有 点 不 符 ， 考 虑 下 面 的 代码 : 


a = np.array([10，20，30，40]) 
b = np.arange (4) 

Print('a\n', ar "ab\n's b) 
print('a = d\n's & = 
c=a-b 

Brint (oNn'y ©) 

print (Db * 2n's bt 
print('b, ** 2\n', BD ** 2) 
print('a < 21\n', a < 21) 


其 中 a 和 b 的 打印 值 为 : 


a 
[10 20 30 40] 


b 
| | 


大 家 认为 a-4 会 等 于 多 少 呢 呢 ?a-b 又 会 等 于 多 少 呢 ? 实际 上 根据 按 元 素 运算 的 原则 ，a-4 是 a 中 的 所 有 元 素 都 减 去 4， 而 a-b 则 是 先 用 a 中 的 第 一 个 元 素 减 去 b 中 的 第 一 个 元 素 ， 然 后 用 a 中 的 第 二 个 元 素 
减 去 b 中 的 第 二 个 元 素 ， 以 此 类 推 。 所 以 上 面 代码 的 最 终 输出 结果 是 : 


和 一 站 
[ 6 16 26 36] 
C 
[10 19 28 37] 
b*2 
[0 2 4 6] 
世 
[0149] 
a < 21 
[ True True False False] 


无 论 二 元 操作 符 [1 的 右 侧 是 一 个 数 还 是 一 个 数组 /矩阵 ，Numpy 的 数组 都 是 按照 元 素 进行 计算 的 ， 而 熟悉 线性 代数 的 读者 可 能 要 有 疑问 了 ， 那 么 矩阵 乘法 该 如 何 计算 呢 ? 实际 上 必须 通过 Numpy 数 组 的 
dot() 方 法 来 进行 矩阵 点 乘 。 对 比 下 面 的 两 种 计算 方式 : 


回 


a= np.array(([1，2]，[2，3])) 
b= np.array(([1, 0], [0, 21)) 
print ('a\n', a) 

print ('b\n', b) 

print('a 二 DMAa'y 
print('a.dot (b) \n', a.dot (b)) 


c= np.array([1l, 2, 3, 4, 5]) 
d= np.array([2, 3, 4, 5, 6]) 
Brint('e * dT\n's edot'(d.T}) 


上 面 的 代码 运行 结果 为 : 


其 中 a*b 是 对 应 元 素 相 乘 ， 这 个 我 们 已 经 知道 了 ，a.dot(b) 才 是 矩阵 的 点 乘 。 


很 多 Numpy 的 一 元 操作 符 都 是 通过 ndarray 对 象 的 方法 来 实现 的 ， 参 考 下 面 的 代码 : 


a = np.random.random( (3, 2)) 
print('a\n', a) 

print('a.sum()\n', a.sum()) 
print('a.min()\n', a.min()) 
print('a.max()\n', a.max()) 


其 输出 的 结果 是 : 


a 
[[ 0.1102174 0.5828411 ] 
[ 0.9800738 0.40720887] 
[ 0.75665786 0.08734769]] 

a.sum() 
2.92434672331 

a.min() 

0.0873476886045 


a.max() 
0.980073802459 


在 上 面 的 程序 中 无 论 原 始 的 数组 是 几 维 的 ，sum(0、min(0、max() 函 数 都 是 将 其 当 作 一 维 的 数组 进行 处 理 的 ， 想 要 让 计算 作用 于 特定 的 轴 上 ， 可 以 使 用 参数 axis 进 行 指定 ， 比 如 下 面 的 代码 : 


Print('a.sum(axis=0) \n'，a.sum(axis=0) ) 
print ('a.sum(axis=1)\n', a.sum(axis=1)) 
print ('a.cumsum(axis=1)\n', a.cumsum(axis=1)) # 累积 和 


a.sum(axis=0) 

[ 1.84694907 1.07739766] 
a.sum(axis=1) 

[ 0.6930585 1.38728267 0.84400555] 
a.cumsum (axis=1) 

[[ 0.1102174 0.6930585 ] 

[ 0.9800738 1.38728267] 

[ 0.75665786 0.84400555]] 


当 sum0 函 数 中 参数 axis 的 值 为 0 时 ， 会 按照 列 方向 进行 求 和 ; 当 axis 的 值 为 1 时 ， 则 按照 行 方向 进行 求 和 。 另 外 cumsum0 函 数 可 计算 每 个 轴 上 的 累计 和 ， 比 如 ， 当 axis 的 值 为 1 时 ， 会 计算 行 方向 的 累积 
和 ， 每 行 结果 中 第 二 列 的 值 是 原始 对 象 每 行 中 第 一 列 和 第 二 列 的 值 之 和 。 如 果 有 第 三 列 、 第 四 列 ， 那 么 结果 中 的 值 也 是 原始 对 象 该 行 之 前 所 有 列 之 和 ， 以 此 类 推 。 


Numpy 的 数组 下 标 、 切 片 大 致 上 与 Python 的 列表 相似 ， 参 考 下 面 的 代码 : 


a = np.fromfunction(lambda x, y: 5 * x + y, (4，4)) # x,，y 是 每 个 位 置 的 索引 

print('a\n', a) 

print ('a[l2, -1]\n', a[l2, -1]) 

prittt'alsr Tr eal, Tr3]y 

b = np.fromfunction(lambda x, y, z: x + y+z, (4, 5, 6)) 

print ('b\n', b) 

print ('b[1, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/...]\n', bl[1l, http://www.hzcourse.com/resource/readBook?patt 


在 上 面 的 代码 中 使 用 romfunction() 函 数 生成 Numpy 数 组 ， 这 是 一 种 非常 方便 的 方式 。 该 函数 的 第 二 个 参数 是 数组 的 形状 ， 在 第 一 行 的 程序 中 (4.4) 代表 我 们 将 要 生成 一 个 4x4 的 二 维 数组 ， 其 中 行 
x 表 示 ， 列 号 用 y 表 示 。 而 这 个 函数 的 第 一 个 参数 是 一 个 需要 两 个 参数 的 函数 (这 里 我 们 使 用 了 Python 的 匿名 函数 ， 参 数 是 x 和 y，5*x+y 是 返回 值 ) 。 使 用 fromfunction() 函 数 生成 数组 时 ， 其 中 的 每 
个 元 素 都 是 将 每 个 元 素 的 坐标 分 别 带 入 第 一 个 参数 的 函数 中 ， 跟 x 和 y 绑 定 求 得 的 。 所 以 上 面 程序 运行 后 的 输出 结果 为 : 


一 


和 [2j”d] 
13.0 

a 23] 

下 RE 
| 
| 
E67 测 玫 和 


通过 上 面 的 结果 可 以 看 到 ， 对 于 一 个 Numpy 的 二 维 数组 ， 可 以 使 用 a[2,-1] 的 下 标 方式 获取 其 中 的 某 一 个 元 素 ， 这 与 Python 的 列表 下 标 是 类 似 的 ， 只 不 过 这 个 下 标 表达 式 中 包含 一 个 行 下 标 [2] 和 一 个 列 
下 标 [-1]。Numpy 数 组 中 的 下 标 也 支持 负数 下 标 ， 可 以 从 数组 的 尾部 向 前 计数 。 实 际 上 ， 可 以 简单 地 认为 Numpy 数 组 的 下 标 表示 的 就 是 两 个 独立 的 Python 下 标 ， 分 别 表示 行 向 和 列 向 的 位 置 ， 使 用 方法 也 
一 致 。 比 如 a[:,1:3] 就 表示 ， 取 a 中 全 部 的 行 ， 以 及 1 到 3 之 间 所 有 的 列 。 由 于 Numpy 支 持 更 多 维度 的 数组 ， 所 以 Numpy 还 可 以 对 于 数组 的 维度 进行 切片 ， 参 考 下 面 的 代码 : 


b = np.fromfunction(lambda x, y, z: x + y+z, (4, 5, 6)) 
print ('b\n', b) 
print ('b[1, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/...]\n', bl[1l, http://www.hzcourse.com/resource/readBook?patt 


其 中 第 三 行 的 “http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16309/OEBPS/Text/... ”代表 其 余 的 全 部 为 维度 ， 上 面 程序 运行 输出 的 结果 
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Numpy 数 组 的 迭代 与 Python 的 列表 类 似 ， 参 考 下 面 的 代码 : 


for row in a: 
print (row) 
# 按 元 素 迭 代 


for e in a.flat: 


print (e) 

运行 结果 如 下 
Rs 
| 
[i 1 
5. 16. 17. 18.] 


to EO 


ttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


回 


Numpy 中 还 提供 了 改变 数组 形状 的 方法 ， 参 考 下 面 的 代码 : 


其 中 ， 需 要 注意 的 是 ,无论 原始 数组 是 几 维 的 ，Numpy 数 组 的 flat 属 性 都 会 获得 一 个 摊 平 的 一 维 数组 。 


a = np.random.random( (3, 4)) 
print('a\n', a) 

print ('a.shape\n', a.shape) 
print ('a.T\n', a.T) # 转 置 


a.resize((2，6)) # 原 地 修改 


print('a.resize(2, 6)\n', a) 


print ('a.reshape (3，-1)\n'，a.reshape (3，-1)) # 使 用 reshape () 函数 ， 


被 赋值 为 -1 的 维度 会 自动 计算 


其 输出 的 结果 如 下 : 


0.50033206 0.00431591 0.69378812 0.12295961] 


0.3483353 0.87700219 0.81363838 0.2805309 ] 
0.72109167 0.71531724 0.10556287 0.90224477]] 
a.shape 
(3, 4) 
站 :于 


0.50033206 0.3483353 0.72109167] 
0.00431591 0.87700219 0.71531724] 
0.69378812 0.81363838 0.10556287] 
0.12295961 0.2805309 0.90224477]] 
a.resize (2, 6) 

0.50033206 0.00431591 
0.81363838 0.2805309 
a.reshape (3, -1) 
0.50033206 0.00431591 0.69378812 0.12295961] 
0.3483353 0.87700219 0.81363838 0.2805309 ] 
0.72109167 0.71531724 0.10556287 0.90224477]] 


0.69378812 0.12295961 0.3483353 0.87700219] 
0.72109167 0.71531724 0.10556287 0.90224477]] 


shape 属 性 存储 了 数组 的 维度 信息 ， 可 以 看 到 数组 a 是 一 个 3x4 的 二 维 数组 。 
组 修改 为 2x6， 只 需要 注意 元 素 的 个 数 不 要 改变 即 可 。 为 了 方便 ， 有 的 时 候 只 需 
的 总 数 及 其 他 的 维度 值 进 行 自动 计算 。 


属性 T 可 以 获取 原始 二 维 数组 的 转 置 [外 。 然 后 这 里 有 两 种 改变 数组 形状 的 函数 ，resize0 可 以 原 地 修改 数组 ， 比 如 将 3x4 的 数 


要 确定 一 个 维度 ， 此 时 就 可 以 使 用 reshape( 函 数 ， 这 个 函数 接受 对 应 维度 的 参数 为 -1， 这 表示 这 个 维度 将 会 根 所 


在 Numpy 中 还 可 以 对 数组 进行 堆 友 ， 堆 畦 分 为 两 个 方向 ， 即 行 方 向 (垂直 方向 ) 和 列 方 向 (水 平方 向 ) ， 分 别 用 下 


HH 


的 代码 表示 : 


回 


居 数 组 中 元 素 


a = np.random.random( (2, 3) 
b = np.random.random( (2, 3) 
Brint (an; ar nb\n's b) 
print('np.vstack((a, b))\n', np.vstack( (a, b))) 
print('np.hstack((a, b))\n', np.hstack( (a, b))) 


) 
) 


其 运行 的 结果 如 下 : 


a 
[[ 0.17626972 0.4007032 ] 
[ 0.88440158 0.01618175 0.57317466]] 
[[ 0.63942705 0.73544857 0.49916016] 
[ 0.54918264 0.44880421 0.80881488]] 

np.vstack ( (a, b)) 

[[ 0.17626972 0.4007032 
[ 0.88440158 0.01618175 
[ 0.63942705 0.73544857 
[ 0.54918264 0.44880421 
np.hstack( (a, b)) 


0.92603283 
b 


0.92603283] 
0.57317466] 
0.49916016] 
0.80881488]] 


[[ 0.17626972 0.4007032 
[ 0.88440158 0.01618175 


0.92603283 0.63942705 0.73544857 0.49916016] 
0.57317466 0.54918264 0.44880421 0.80881488]] 


其 中 vstack() 方 法 表示 垂直 堆 匡 ， 


hstack() 方 法 表示 水 平 堆 晋 。 与 之 相对 ， 垂 直 和 水 平方 向 还 可 以 进行 切 分 : 


a=np.floor(10 * np.random.random( (2, 12))) 


print ('a\n', a) 


print('np.hsplit(a, 3)\n', np.hsplit(a, 3)) 
print('np.vsplit(a, 1)\n', np.vsplit(a, 1)) 


EE 
[Be Hs 
np.hsplit (a 
[array ([ 


1 
1 9.， 
， 


( 
f. 5 
8 i 
8 本 
上 a 
七 (a } 
[array([[ 6. 
8 


中 如 “+、 


与 Python 容器 对 象 一 样 ， 


D] 在 线性 代数 中 ， 转 置 是 指 矩 阵 沿 着 对 角 线 旋转 ， 使 行 成 为 列 ， 列 成 为 行 。 


10.1.3 Numpy 高 级 特性 


除了 前 面 介绍 的 基础 功能 和 基本 操作 之 外 ，Numpy 还 提供 了 一 系列 强力 的 工具 。 我 们 可 以 使 用 


直接 将 Numpy 数 组 赋值 给 一 个 变量 也 仅仅 是 一 个 别名 而 已 ， 并 没有 真正 复制 其 中 的 值 ， 我 们 可 以 使 用 a.view() 进 行 浅 拷贝 ， 用 a.copy() 进 行 深 拷 贝 。 


Numpy 数 组 提供 的 高 级 索引 进行 取 值 ， 参 考 下 面 的 代码 : 


一 、*、/” 这 类 操作 符 称 为 二 元 操作 符 ， 实 际 上 只 要 是 连接 两 个 数 进行 计 算 的 就 都 称 为 二 元 操作 符 。Python 中 并 没有 典型 的 x:y?z 之 类 的 三 元 操作 符 ， 绝 大 多 数 的 情况 下 可 以 使 用 yifxelsez 来 代替 。 


a= np.arange(20) * 3 


i= np.array([1, 3, 7, 2, 4]) 


print ('a[i] \n', al[il) 
j = np.array([[3, 4], 
print ('a[lj]\n', a[j]) 


[9, 71]) 


a 
[3 二 二 2 并 24273033363942 8 和 同和 下 5571] 


a[i] 

[3 921 612] 
a[j] 

[[ 9 12] 

[27 21]] 


外 ， 


在 上 面 的 代码 里 ， 数 组 a 使 


还 可 以 通过 两 个 轴 向 的 索引 分 别 获 取 数 组 中 的 元 素 : 


另外 一 个 数组 i 作为 下 标 进行 取 值 ， 返 回 值 是 a 中 下 标 为 i 中 元 素 的 元 素 的 列表 。 同 样 当 下 标 为 二 维 数 组 的 j 时 ， 返 回 值 会 按照 -的 结构 进行 重 排 ， 也 会 形成 一 个 二 维 数组 。 此 


到 


a = np.arange (12) .reshape (3, 4) 
= np.array([[1, 1], 


[1，2]]) # 行 向 索引 


j = np.array([[1，1]， 
[3，3]]) # 列 向 索引 


入 六 全 Nm. alye 31) 


其 输出 的 结果 是 : 


其 中 ，i 中 的 元 素 代 表 行 方向 的 索引 ，j 中 的 元 素 代表 列 方向 的 索引 ，i 与 j 的 形状 必须 完全 相同 ， 输 出 的 结果 形状 也 要 与 惑 j 的 形状 相同 。 


Numpy 中 还 有 一 种 特殊 的 函数 ， 以 arg 前 缀 开头 ， 比 如 argsort() 函 数 代 表 “参数 排序 ” ， 程 序 会 将 原始 的 数组 进行 排序 ， 然 后 返回 排序 后 的 索引 ， 而 不 是 排序 后 的 值 ， 可 以 参考 下 面 的 代码 : 


data = np.sin (np.arange (20) ) .reshape (5, 4) 


print ('data\n', data) 


ind = data.argmax (axis=0) 


print ('ind\n', ind) 


sort = data.argsort () 


print('sort', sort) 


其 输出 的 结果 如 下 : 


data 


5 0.84147098 0.90929743 0.14112001] 
7568025 -0.95892427 -0.2794155 0.6569866 ] 


53657292 0.42016704 0.99060736 0.65028784] 
28790332 -0.96139749 -0.75098725 0.14987721]] 


0 
[= 
[ 0.98935825 0.41211849 -0.54402111 -0.99999021] 
[=0; 
0 


ind 

[2. 0 31] 
ort (IQ 31.2] 
| 
[| 

的 :于 :3 

上 攻 和 演 入 到] 


获得 了 排序 后 的 数组 的 索引 之 后 ， 再 结合 前 面 介绍 的 高 级 索引 取 值 的 方法 ， 不 仅 可 以 重新 获取 排序 后 的 数组 ， 还 可 以 方便 地 使 
获取 我 们 想 要 的 值 ， 所 谓 布尔 索引 就 是 返回 对 应 位 置 值 为 True 的 元 素 ， 参 考 下 面 的 代码 : 


这 个 序列 对 其 他 的 相关 数组 进行 排序 。 除 此 之 外 ， 还 可 以 使 


布尔 索引 


a = np.arange (12) .reshape (3, 4) 


b=a>3 
print ('b\n', b) 


print ('a[b] \n', a[b]) 


其 输出 的 结果 如 下 : 


b 

[[False False False Falsel] 
[ True True True True] 
[ True True True True]] 
al[b] 

[4 8 S111] 


可 以 看 到 ， 在 b 中 对 应 位 置 为 True 的 a 中 的 元 素 被 选择 了 出 来 。 


a 


对 于 Numpy 数 组 ， 除 了 上 面 的 一 些 特性 之 外 ， 还 需要 简单 介绍 一 下 关于 线性 代数 的 计算 ， 为 了 方便 起 见 ， 将 在 下 面 的 代码 中 一 起 列 出 来 : 


a = np.array([[1, 2], [3, 4]]) 
print (a) 
print (a.T, a.transpose()) # 转 置 


( 
print (np.linalg.inv(a)) # 算 阵 的 逆 
print (np.eye (4)) # 对 角 阵 
print (np.trace (np.eye (3))) # 和 矩阵 的 迹 
y= np.array ([[5.], [7.]]) 


print (np.linalg.solve (a，y)) # 解 线性 方程 
z= np.array([[0.0, -1.0], [1.0, 0.0]]) 
print (np.linalg.eig(z)) ## 解 特征 方程 


可 能 有 些 读者 还 不 熟悉 线性 代数 的 计算 ， 这 里 通过 注释 列 出 了 每 个 操作 所 对 应 的 含义 ， 因 此 不 再 进行 详细 的 讲解 。 关 于 线性 代数 的 部 分 知识 ， 本 章 将 不 做 重点 介绍 ， 有 兴趣 的 读者 可 以 自行 学 习 。 


10.1.4 节 将 会 通过 一 个 实际 的 例子 讲解 如 何 综合 使 用 Numpy 进 行 实战 的 学 习 。 


10.1.4 kNN 实 战 


kNN (k- 邻 近 算 法 ) 是 最 简单 的 机 器 学 习 分 类 的 算法 ， 虽 然 简单 但 却 很 有 效 。 下 面 就 使 用 经 典 的 营 尾 花 的 数据 集 [] 进 行 实战 讲解 。80 年 前 Fisher 曾 经 统计 过 三 种 不 同 的 营 尾 花 的 数据 ， 包 括 了 苯 片 的 长 


度 和 宽度 ， 以 及 花瓣 的 长 度 和 宽度 。 考 虑 到 植物 学 家 对 不 同 品种 的 萤 尾 花 进 行 分 类 的 指标 ,我 们 可 以 猜测 不 同 品种 之 间 这 些 可 以 量化 的 值 (例如: 花瓣 长 度 ) 是 不 是 有 明显 的 区 别 。 如 何 能 够 确认 这 些 区 


别 ， 并 根据 这 些 区 别 划 分 不 同 的 品种 ， 就 是 本 节 的 目的 。 


在 开始 之 前 我 们 先 来 探索 一 下 这 个 数据 集 ， 以 下 是 这 个 数据 集 的 概览 : 


Id, SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm Species 

1,5.1,3.5,1.4,0.2,Iris-setosa 

2,4.9,3.0,1.4,0.2,Iris-setosa 

3,4.7,3.2,1.3,0.2,Iris-setosa 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
51,7.0,3.2,4.7,1.4,Iris-versicolor 

52,6.4,3.2,4.5,1.5,Iris-versicolor 

53,6.9,3.1,4.9,1.5,Iris-versicolor 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
101.6.3.3.3:6.0,2.5,Iris-virginica 

T0258,2.7756L1L. 9 Tris-virginica 

103,7.1,3.0,5:9,2.1,Iris-virginica 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


上 面 的 数据 涉及 三 种 不 同 的 营 尾 花 ， 并 且 每 一 个 品种 分 别 采 集 了 50 个 样本 ， 每 条 样本 中 包含 4 个 维度 的 数据 ， 加 上 序号 及 品种 共 6 列 ， 以 下 是 每 个 维度 的 说 明 。 
“ Id: 数据 的 序号 ， 从 1 到 150。 
“ SepalLengthCm: 葛 片 的 长 度 。 
“ SepalWidthCm: 茜 片 的 宽度 。 
“ PetalLengthCm: 花 闪 的 长 度 。 
“ PetalWidthCm: 花 办 的 宽度 。 


' Species: 品种 。 


数值 均 以 厘米 为 单位 ， 读 者 可 以 参考 代码 清单 10-1 读 取 这 个 数据 集 : 


代码 清单 10-1: kNN.py 


# ! /usr/bin/python 
# =-#~ ooding: utf-8 ~*~ 


from _ future _ import print function 

from collections import Counter, defaultdict 
import random 

import csv 


import numpy as np 
import matplotlib.pyplot as plt 


def get data(loc='/Users/jilu/Downloads/iris/Iris.csv'): 
with open(loc, 'r') as fr: 
lines = csv.reader (fr) 
data file = np.array (list (lines)) 
data = data file[l:, 1:-1] .astype (float) 
labels = data file[1:, -1] 
return data, Tabels 


上 面 的 代码 会 返回 两 个 值 ，data 是 原始 数据 中 的 数值 部 分 ，labels 是 花 的 品种 。 这 里 使 用 csv 模 块 直接 读 取 csv 文 件 ， 然 后 将 读 取 的 数据 使 用 Numpy 的 array 方 法 建立 二 维 数组 。 这 里 
文件 中 读 取 的 所 有 值 都 是 以 字符 串 的 、 形 式 存储 的 ， 现 在 要 将 其 改 为 浮 点 型 以 用 于 之 后 的 使 用 ， 这 里 使 用 了 Numpy 数 组 的 astype( 方 法 。 如 果 将 其 打印 出 来 ， 看 起 来 应 该 是 下 面 的 样子 : 


TD 


要 注意 的 是 ， 在 原 


[ 过 


OO WO 


[ 沪 圭 1.4 0.2] 
[ 4.9 工 :生意 .2 
[ 4.7 52 了 ,3 站 ,2 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
['Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 

'Iris-setosa' 'Iris-setosa' 'Iris-setosa' 'Iris-setosa’ 'Iris-setosa!' 

'Iris-setosa' 'Iris-setosa' 'Iris-setosa' "Iris-setosa' 'Iris-setosa' 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


为 了 确认 之 前 的 推测 是 否 正确 ， 即 到 底 能 不 能 仅 通 过 莹 片 的 长 宽 及 花 妆 的 长 宽 去 分 辨 花 的 品种 ， 可 通过 数据 可 视 化 的 方式 来 验证 ， 为 了 将 其 用 图 片 的 方式 表示 出 来 ， 可 在 代码 清单 10-1 中 添加 下 面 的 代 
码 : 
def draw(): 
style list = ['ro', 'go', 'bo'] 
data, labels = get data() 
print (data) 
print (labels) 
cc = defaultdict (list) 
for i, d in enumerate (data): 
cc[labels[i]] .append (d) 
plist = [] 
c_list = [] 
for i, (c, ds) in enumerate (cc.items () ) : 
draw data = np.array (ds) 
P = plt.plot(draw data[:, 0], draw data[l:, 1], style list[i]) 
p_list.append (p) 
c list.append (c) 
plt.legend (map (lambda x: x[0], p_ list), c list) 
plt.title (u' 高 尾 花 苯 片 的 长度 和 宽 朗 " 
plt.xlabel (u' 苯 片 的 长 度 (cm) ') 
plt.ylabel (u' 苯 片 的 宽度 (cm) ') 
plt.show() 
上 面 的 代码 表示 使 用 pyplot 进 行 绘图 ， 并 和 且 描绘 了 三 种 花 的 莹 片 尺寸 的 长 宽 ， 其 结果 如 图 10-1 所 示 。 
Ea 
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花瓣 的 长 度 (cm) 
10-1 三 种 花 昔 片 尺寸 的 长 和 宽 
从 图 10-1 中 可 以 发 现 ， 图 例 中 的 图 形 (绿色 ) 表示 的 setosa 明 显 与 另外 两 种 有 区 别 ， 而 图 例 中 方形 表示 的 virginica 和 图 例 中 倒 三 角 表 示 的 versicolor 两 个 品种 虽然 有 所 不 同 ， 但 是 也 有 交叉 的 部 分 。 在 上 
面 的 代码 中 是 使 用 如 下 的 代码 行 来 描绘 昔 片 的 长 宽 的 : 


p= plt.plot(draw data[:, 0], draw data[:, 1], style list[i]) 


也 就 是 使 用 第 0 列 和 第 1 列 来 描绘 昔 片 的 长 宽 。 现 在 ， 将 其 分 别 改 为 2 和 3 : 


p= plt.plot(draw data[:, 2], draw data[:, 3], style list[i]) 


这 样 就 可 以 绘 出 花 狼 长 宽 的 对 比 图 了 ， 如 图 10-2 所 示 。 


2.5 


2.0 


花瓣 的 宽度 (cm) 


eh 
Cn 


© 


葛 尾 花花 准 的 长 度 和 宽度 


各 Vv 
有 9 罗 回国 
Vv 本 vvv 
YYYYvvv 
YY YY v Y 
MA 
BAL 


@ 
0.5 e 
© O00 © 
图 全 四 © 
@OOO 0 9 
全 © 
0.0 
1 2 3 4 5 


花瓣 的 长 度 (cm) 


图 10-2 更 明显 的 对 比 


Iris-virginica 
© |riS-Setosa 
Y lris-versicolor 


在 图 10-2 中 ， 三 个 品种 的 花 泊 尺寸 的 差距 就 更 加 明显 了 。 现 在 已 经 确认 了 我 们 的 推测 ， 那 么 如 何 才 能 做 一 个 分 类 器 ， 从 而 只 通过 莹 片 和 花 泊 的 尺寸 来 对 未 知 品种 的 营 尾 花 进 行 分 类 呢 ? 这 就 需要 用 到 接 
下 来 要 介绍 的 kKNN 算 法 了 。 
通过 图 10-1 和 图 10-2 可 以 发 现 ， 如 果 将 数据 描绘 在 二 维 平面 上 ， 那 么 我 们 还 可 以 通过 点 与 点 之 间 的 距离 来 进行 分 类 。 如 果 要 计算 一 个 未 分 类 的 数据 的 分 类 ， 那 么 只 要 将 这 个 值 与 已 知 分 类 的 点 计算 距 


离 ， 选 择 距 离 最 近 的 


个 点 ， 就 可 以 将 这 个 未 知 分 类 的 数据 归 类 到 占 比 最 多 的 分 类 中 。kNN 就 是 这 样 一 个 朴素 的 想法 ， 将 其 整理 成 算法 的 步骤 


人 体 如 下 。 


1) 计算 当前 要 分 类 的 点 与 每 一 个 已 知 分 类 点 的 距离 。 


2) 对 结果 进行 并 


序 。 


3) 选取 距离 最 近 的 k 个 点 。 


4) 统计 这 k 个 点 不 同 分 类 出 现 的 频次 。 


5) 选取 频次 最 高 的 分 类 作为 当前 要 分 类 的 点 的 分 类 。 


具体 的 实现 可 以 参考 下 面 的 代码 ， 并 将 其 添加 到 代码 清单 10-1 中 : 


def classify(input data, train data, labels, k): 
data size = train data.shape[0] 
diff = np.tile(input data, (data size, 1)) - train gdata 
sqrt diff = diff ** 2 
sqrt distance = sqrt diff.sum(axis=1) 


distance = 


np.sqrt( sqrt qi stance) 


sorted index = distance.argsort () 
class count = Counter (labels[sorted index[:k]]) 
return class_count.most common() [0] [0] 


这 个 函数 包含 4 个 参数 ，input_data 是 需要 被 分 类 的 未 知 点 的 各 项 数据 的 列表 ，train_data 是 训练 的 数据 ， 也 就 是 已 知 分 类 的 数据 集 ，labels 是 与 train_data 逐 条 对 应 的 已 知 分 类 ，k 表 示 与 使 用 k 个 最 近 
点 的 分 类 进行 投票 。 计 算 距 离 的 函数 很 简单 ， 可 使 用 标准 的 欧式 距离 公式 : 


过 


d= V(xA4, -xB) +(xA +xB,) 


于 计算 两 个 向 量 点 xA 和 xB 之 间 的 距离 ， 比 如 计算 (0,0) 和 (1,2) 这 两 个 点 的 距离 可 以 表示 为 : 


Ed 


如 果 数据 存在 4 个 特征 值 (本 例 ) ， 比 如 ， 要 计算 点 [5.62.53.91.1] 和 [5.93.24.81.8] 的 距离 ， 算 法 也 没有 区 别 外 ， 如 下 : 


(S60 ElD SD TD0 di ttl dy 


classify0 函 数 的 功能 本 身 就 是 对 算法 步骤 的 忠实 反应 ， 其 中 np.tile() 方 法 可 以 将 第 一 个 参数 扩展 成 第 二 个 参数 描述 的 数组 形状 ， 以 让 原始 的 input_data 数 组 成 为 与 train_data 同 样 形状 的 数组 以 进行 减法 
运算 。 之 后 计算 平方 、 求 和 、 开 方才 完成 了 距离 的 计算 。 再 使 用 参数 排序 然后 再 对 已 知 分 类 统计 频数 以 求 得 input_data 的 分 类 。 为 了 验证 kNN 的 效果 ， 需 要 为 代码 清单 10-1 中 再 增加 如 下 的 代码 : 


def try once(): 
data, labels = get data() 
index = range (len (data)) 
data = data[index] 
labels = labels[index] 
random. shuffle (index) 
labels = labels[index] 
data = data[index] 
input data = data[-1] 
data = data[:-1] 
input label = labels[-1] 
labels = labels[:-1] 
print('input index:', index[-1]) 
print ('true class:', input label) 
print (classify (input data, data, labels, 5)) 


这 个 函数 会 从 原始 的 150 个 数据 中 选取 一 个 作为 测试 数据 ， 并 把 其 余 的 作为 训练 数据 ， 因 为 我 们 实际 上 已 经 知道 了 真正 的 分 类 ， 所 以 可 以 多 次 运行 这 个 函数 以 检验 KNN 分 类 的 正确 率 。 以 下 是 运行 5 次 
try_one() 函 数 的 结果 : 


input index: 114 

true class: Iris-virginica 
Iris-virginica 

input index: 80 

true class: Iris-versicolor 
input index: 11 

true class: Iris-setosa 
Iris-setosa 

input index: 66 

true class: Iris-versicolor 
Iris-versicolor 


input index: 53 
true class: Iris-versicolor 
Iris-versicolor 


可 以 看 到 5 次 分 类 的 结果 全 部 都 正确 了 ， 因 为 本 节 并 不 是 要 细致 地 介绍 机 器 学 习 的 算法 ， 所 以 这 里 不 会 进行 准确 率 的 详细 对 比 。 而 且 ， 如 果 每 一 次 分 类 都 需要 调用 一 次 训练 样本 ， 那 么 这 样 的 程序 开销 也 
很 大 ， 并 不 适合 实际 的 应 用 。 实 际 上 我 们 还 有 更 好 的 办 法 来 实现 类 似 的 功能 ， 有 兴趣 的 读者 可 以 自己 去 了 解 。 


本 节 通 过 这 个 实战 示例 进一步 巩固 了 Numpy 的 知识 ，10.2 节 将 会 介绍 如 何 使 用 Pandas 进 行 数 据 分 析 。 


[由 可 以 在 https://www.kaggle.com/uciml/iris 中 下 载 ， 该 数据 集 来 自 于 1936 年 Fisher 的 论文 “The Use of Multiple Measurements in Taxonomic Problems” 。 
[ 引 关于 高 维 数组 ， 读 者 暂时 不 要 去 理解 应 该 是 什么 样子 ， 只 需要 知道 算法 没有 改变 就 可 以 了 。 


10.2 ”Pandas 的 入 门 和 实战 


Pandas 这 个 第 三 方 库 在 第 7 章 已 经 使 用 过 ， 当 时 使 用 的 是 读 取 Excel 等 的 功能 ， 其 实 这 个 库 要 比 看 起 来 的 更 加 强大 。 其 中 ， 最 为 主要 的 功能 是 提供 了 DataFrame 这 个 数据 结构 ， 它 可 以 让 我 们 直接 在 数据 
集 上 使 用 关系 模型 ， 比 如 完成 分 组 (group by) 、 聚 合 (agg) 或 联合 (join) 等 操作 ， 而 无 需 将 数据 导入 一 个 关系 型 的 数据 库 中 ， 另 外 它 还 集成 了 强大 的 时 间 序 列 相关 函数 ， 该 功能 在 金融 领域 也 应 用 广 
泛 。 


Panda< 是 一 个 基于 Numpy 的 数据 分 析 库 ， 本 节 将 会 学 习 Pandas 库 的 基本 操作 ， 以 及 实际 地 使 用 Pandas 操 作 一 定量 的 数据 ， 从 而 进行 数据 分 析 实 战 演练 。 在 一 个 常规 的 数据 分 析 项 目 中 ， 数 据 通常 要 
经 过 数据 清洗 、 建 模 、 最 终 组 织 结果 /绘图 这 几 个 步骤 ， 而 Pandas 能 够 完成 全 部 的 这 些 工 作 ， 它 是 一 个 供 数据 科学 家 使 用 的 好 工具 。 


如 果 读 者 没有 安装 过 第 三 方 库 Pandas， 那 么 可 以 使 用 下 面 的 命令 进行 安装 : 


$pip install pandas 


10.2.1 ” ”Pandas 基础 


使 用 Pandas 这 个 模块 可 以 使 用 下 面 的 方式 导入 : 


import pandas as pd 


习惯 上 我 们 会 把 Pandas 重 命名 成 pd 以 简化 使 用 。 与 Numpy 的 主要 数据 类 型 ndarray 类 似 ，Pandas 也 提供 了 一 种 基础 的 数据 类 型 Series。 这 也 是 一 个 序列 类 型 ， 它 的 大 多 数 操作 与 Numpy 的 ndarray 类 


似 ， 同 时 Series 类 型 也 是 一 个 有 索引 的 类 型 ， 又 可 以 像 Python 中 的 字典 一 样 工作 。 当 然 无 论 是 ndarray 还 是 Series， 都 是 只 能 包含 同一 种 类 型 元 素 的 序列 类 型 ， 这 一 点 与 Python 的 列表 和 字典 不 同 。 要 创建 
一 个 Series 可 以 参考 下 面 的 代码 : 


a = pd.Series([1, 0.3, np.nan]) 
b = pd.Series (np.array ([1, 2, 3])) 
print ('a\n', a) 

( 


其 输出 的 结果 为 : 


type: float64 


0 
工 
2 
d 
b 
0 1 
下 2 
2 

d 


type: int64 


Series 可 以 从 Python 的 列表 进行 构建 ， 并 且 在 Series 中 可 以 用 np.nan 表 达 某 个 位 置 没 有 值 。 从 上 面 的 例子 中 可 以 看 到 ，Pandas 会 自动 将 不 同类 型 的 对 象 统一 成 同一 种 类 型 (类 型 推导 会 尽 可 能 地 向 数字 


类 型 推导 ) ， 比 如 整形 的 1 可 以 转化 成 1.0 的 浮 点 型 ，NaN 则 


可 以 是 任何 类 型 。 所 以 最 终 在 打印 输出 的 结果 中 dtype 被 统一 成 了 float64[1]。 同 样 ， 也 可 以 使 


实际 上 Pandas 的 Series 在 只 支持 同类 型 的 元 素 这 个 方面 并 不 是 非常 的 严格 ， 如 果 使 用 下 面 的 方式 创建 一 个 Series 会 产生 什么 样 的 结果 呢 : 


Numpy 的 数组 创建 Series。 


print (pd.Series ([1, 'a'])) 


在 这 里 “a” 无 法 向 数字 的 方向 转换 ， 其 输出 的 结果 如 下 : 


0 1 
1 a 
dtype: object 


可 以 看 到 ，dtype 的 值 是 object， 还 记得 这 个 对 象 么 ? 这 个 对 象 是 所 有 Python 对 象 的 发 源 地 ，Pandas 还 是 将 其 统一 成 了 同一 种 类 型 。 


Series 的 索引 及 计算 基本 上 与 Numpy 的 数组 一 样 ， 参 考 下 


的 代码 : 


print ('a[0] \n', a[0]) 

print (ata > 0.5]\n", a[la > 0.5]) 
print ("a[[2,1]]\n", a[l[2, 1]]) 
print ('a.sum() \n', a.sum()) 

其 输出 的 结果 为 : 

a[01] 

1.0 

a[a > 0.5] 


Gtype: float64 
a[l[2,1]] 

NaN 
1 U3 
dtype: float64 
a.sum() 


细心 地 读者 可 能 会 注意 到 在 每 一 个 Series 打 印 的 值 中 ， 第 一 列 都 是 一 个 序号 ， 这 是 Series 类 型 的 索引 部 分 ， 类 似 Python 字 典 中 的 键 ， 我 们 可 以 通过 这 个 键 直接 获取 某 一 行 的 值 ， 也 可 以 手动 指定 这 个 
键 。 如 果 不 指定 键 那 就 会 有 程序 生成 自 增 的 键 ， 就 像 读 者 看 到 的 那样 ， 下 面 就 来 看 一 下 如 何 使 用 Series 的 索引 : 


c= pd.Series ([1,2,3]，index=["a"，"b"，"c"]) 


Ed 人 CN 过 
EL [An 
print( 


d= pd.Series({'c 
print (d\n'y a) 


c['b']) 


c.get('d', np.nan)) 


rs 


上 面 的 代码 中 ， 为 序列 [12,3] 指 定 了 索引 ， 现 在 来 看 一 下 上 述 代 码 运行 输出 的 结果 : 


Up 
WNP 


它 
dtype: int64 
['b'] 

2 


c.get('d', np.nan) 


nan 


c 0 


现在 变量 c 的 索引 已 经 是 我 们 所 指定 的 索引 了 ， 可 以 像 Python 的 字典 一 样 使 用 类 似 c[ b'] 和 c.get('b') 的 语法 进行 取 值 了 ， 同 样 get 的 第 二 个 参数 是 默认 取 值 。 


除了 Series 之 外 ，Pandas 还 提供 了 另外 一 种 强大 的 类 型 DataFrame， 这 个 类 型 有 点 类 似 于 前 几 章 接触 过 的 数 


先 建立 一 个 DataFrame: 


居 库 。 DataFrame 是 一 种 基于 关系 模型 之 上 的 数据 结构 ， 可 以 看 作 一 个 二 维 的 表 。 让 我 们 


date = pd.date range('20160101', periods=5) 


print (date) 


# 使 用 numpy 对 象 创建 


DataFrame 


df = pd.DataFrame (np.random.randn (5, 4), index=date, columns=list ("ABCD")) 


print (df) 


上 面 的 代码 运行 之 后 输出 的 值 为 : 


DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', 


2016-01=05"]; 
dtype='datetime64[ns]', freq="'D') 
A B 名 


2016-01-01 0.041605 -0.899130 -1.889963 0.430306 
2016-01-02 0.697056 1.558767 -0.861404 -0.804082 
2016-01-03 -0.898452 -1.810908 -0.658668 -0.522549 
2016-01-04 -0.764999 -0.069816 -1.943836 -0.014432 
2016-01-05 0.255078 -1.079007 1.686265 0.447974 


默认 是 起 始 时 间 的 最 小 和 


引 ， 使 用 ABCD 作 为 栏 名 (还 记得 Exce| 或 MySQL 表 的 样子 吗 ) 。 


除了 使 用 上 面 的 方式 创建 一 个 DataFrame 之 外 ， 还 可 以 使 


最 后 输出 的 结果 


'2016-01-04', 


展示 了 一 个 DataFrame 应 该 是 什么 样子 。 


Python 中 的 字典 来 创建 DataFrame， 参 考 下 面 的 代码 : 


其 中 date_range() 函 数 可 以 快速 产生 一 个 时 间 的 序列 ， 第 一 个 参数 是 起 始 的 时 间 ，periods 这 个 参数 代表 一 共 需 要 生成 几 个 元 素 。 在 这 个 例子 中 表示 的 就 是 从 2016 年 1 月 1 日 开始 生成 5 个 日 期 数据 。 步 长 
有 位 ， 比 如 这 里 起 始 时 间 的 最 小 单位 是 日 ， 所 以 在 生成 时 间 序 列 的 时 候 就 会 依次 生成 01、02、03... 这 样 的 序列 。 接 下 来 ， 创 建 一 个 5x4 的 二 维 数组 ， 并 且 使 用 这 个 时 间 序 列 作为 索 


df2 = pd.DataFrame ({'A': 2., 
'B': pd.Timestamp('20160101"'), 
'C'; pd.Series(3, index=list (range (4)), dtype='float64'), 
"D': np.array([3] * 4, dtype='int64'), 
'E': pd.Categorical(["tl"; "t2", "t3", "t4"]), 
DC 

print (df2) 

print (df2.dtypes) 

print (df2.c) 


使 用 字典 时 ， 字 典 的 键 会 自动 成 为 DataFrame 的 列 名 ， 而 字典 中 的 值 将 会 按照 序列 最 长 的 列表 进行 展开 ， 比 如 在 上 面 的 例子 中 CDE 三 列 会 有 4 行 数据 产生 ， 那 么 ABF 三 列 也 要 有 4 行 数据 产生 ， 不 足 的 部 
分 则 使 用 相同 的 值 进行 补 全 ， 其 输出 结果 如 下 : 


A B 和 E lf 
0 2.0 2016-01-01 3.0 3 tl abc 
1 2.0 2016-01-01 3.0 3 t2 abc 
2. -20 .2016- 峙 =-00。， 30 3 +3 abe 
有 23150100 3.0 3 本 ”he 
A float64 
B datetime64 [ns] 
0 float64 
D int64 
E Category 
F object 
dtype: object 


OOO 
口 口 口 口 


ame: C, dtype: float64 


当 我 们 查看 DataFrame 的 dtype 时 ， 可 以 按照 不 同 的 列 分 别 列 出 每 一 列 的 数据 类 型 。 使 用 DataFrame 的 另外 一 个 好 处 是 ， 可 以 使 用 属性 来 访问 DataFrame 内 部 的 数据 ， 比 如 想 要 获取 C 列 的 所 有 数据 ， 
只 需要 调用 df.C 即 可 ， 其 输出 的 结果 也 在 上 面 的 例子 中 展示 了 出 来 。 下 面 的 代码 还 展示 了 获取 DataFrame 中 元 素 的 各 种 方法 ， 这 些 方法 的 详细 功能 已 经 通过 注释 标示 在 每 个 命令 的 后 面 了 。 


# 查看 

print (df.head()) ”# 获取 前 几 行 数据 

print (df.tail()) ”# 获取 后 几 行 数据 

print (df.index)  # 获取 索引 

print (df.columns) # 获取 栏 名 

print (df.values)  # 获取 值 

print (df.describe)# 获取 描述 信息 

print (df.T) # 转 置 

print (df.sort index (axis=1，ascending=False))  # 对 索引 进行 重新 排序 
print (df.sort_values (by="'D'))  # 针对 某 一 栏 中 的 元 素 进行 排序 


# 选择 
print (df['A']) 志 获取 某 一 栏 的 全 部 数据 
print (df[1:3]) # 获取 索引 1:3 的 行 数据 


print (df['20160101':'20160103']) # 获取 索引 值 为 '20160101' :'20160103' 的 行 数据 

# loc 是 定位 元 素 的 方法 

print (df.loc[date[0]]) # 获取 date 第 一 个 索引 的 数据 

print (df.loc[:，['A'，'B']]) # 获取 栏 名 为 AB 的 全 部 行 数据 

print (df.loc['20160102':'20160104'，['A'，'B']])” # 获取 索引 在 '20160102' :'20160104' 范 围 的 AB 栏 的 数据 
print (df.1loc['20160102'，['A'，'B']]) # 获取 索引 为 '20160102' 的 AB 栏 的 数据 


# 通过 布尔 值 获取 数据 
print (df[df.A > 0]) # 获取 A 栏 中 大 于 0 的 数据 
print (df[df > 0]) # 获取 所 有 大 于 0 的 数据 


兴趣 的 读者 可 以 尝试 其 中 的 功能 ， 其 输出 结果 由 于 篇 幅 原因 就 不 再 详细 列举 了 。 


回 


我 们 也 可 以 修改 DataFrame 中 的 值 ， 修 改 方法 参考 下 面 的 代码 : 


# 赋值 

print('df\n', df) 

sl = pd.Series([1, 2, 3, 4], index=pd.date range('20160102', periods=4)) 
print('si\n', s1) 


df['F'] = sl 

print('df\n', df) 

df.at[date[0], 'A'] = 0 

print('df\n', df) 

df.loc[:, 'D'] = np.array([5] * len (df)) 


print('df\n', df) 


让 我 们 先 来 看 一 下 df 的 值 : 


gf 

A B 总 D 
2016-01-01 -0.802430 -0.424146 9721 2596118 
2015-01-02 =Uv655110 0 263982 .482027 -1.014074 
2016-01-03 -2.018104 0.974313 .384814 1.759357 
2016-01-04 -1.306339 0.417810 .325614 -0.070060 
2016-01-05 0.116311 -0.357294 -0.409391 -0.096714 


0 
0 
0 
0 


下 面 创建 一 个 s1 的 序列 ， 并 且 让 它 的 索引 从 20160102 开 始 ， 在 将 s1 加 入 df 时 ， 两 个 索引 会 进行 匹配 ， 其 结果 如 下 : 


sl 
2016-01-02 
2016-01-03 
2016-01-04 
2016-01-05 
Freq: D, dtype: int64 
df 


心 w IN 上 


A B 区 
2016-01-01 -0.802430 -0.424146 0.189721 2.596118 NN. 
2016-01-02 -0.655110 -0.263982 0.482027 -1.014074 1 
2016-01-03 -2.018104 0.974313 0.384814 1.759357 2. 
2016-01-04 -1.306339 0.417810 0.325614 -0.070060 3 
2016-01-05 0.116311 -0.357294 -0.409391 -0.096714 4 


可 以 看 到 在 F 列 第 一 行 的 值 被 NaN 取 代 了 。 当 然 ， 还 可 以 修改 某 一 个 特定 的 值 或 已 经 存在 的 某 一 列 ， 在 上 面 的 例子 中 分 别 修 改 了 A 栏 的 第 一 行 ， 以 及 D 栏 的 整 列 ， 其 输出 的 结果 分 别 如 下 : 


gf 

A B 
2016-01-01 0.000000 -0.424146 
2016-01=02, 0553110.m0.263982 .482027 -1.014074 


站 
.189721 2.596118 N. 
本 
2016-01-03 -2.018104 0.974313 .384814 1.759357 2. 
3 
4 


0 
0 
0 
2016-01-04 -1.306339 0.417810 0.325614 -0.070060 
2016-01-05 0.116311 -0.357294 -0.409391 -0.096714 


A B CD F 


2016-01-01 0.000000 -0.424146 
2016-01-02 -0.655110 -0.263982 
2016-01-03 -2.018104 0.974313 
2016-01-04 -1.306339 0.417810 


0 
0 
0 
0 


2016-01-05 0.116311 -0.357294 -0 


.189721 5 N: 
A82027 5 1 
.384814 5 2. 
“32561 本 与 3 了。 
sa09391 5 4 


现在 我 们 已 经 获得 了 一 个 包含 NaN 值 的 DataFrame， 那 么 Pandas 是 如 何 处 理 包 含 NaN 值 的 DataFrame 的 呢 ? Pandas 中 包含 了 下 面 三 个 函数 : 


print (df.dropna (how='any') ) 
Print (df.fillna (value=3)) 
print (pd.isnull (df)) 


dropna() 函 数 会 删除 包含 NaN 的 数据 行 ，fillna0 函 数 会 使 


默认 值 来 填充 NaN 函 数 ，pd.isnull() 函 数 会 判断 是 否 包含 NaN 函 数 ， 上 面 三 个 函数 的 输出 结果 如 下 : 


A B 
2016-01-02 0.240617 0.553325 -1. 
2016-01-03 -0.384868 0.656671 -1. 
2016-01-04 -0.484593 0.389173 -0. 
2016-01-05 0.967616 0.359171 1. 
A B 
2016-01-01 0.000000 -1.025440 -0. 
2016-01-02 0.240617 0.553325 -1. 
2016-01-03 -0.384868 0.656671 -1. 
2016-01-04 -0.484593 0.389173 -0. 
2016-01-05 0.967616 0.359171 1. 
A B Cc 


2016-01-01 False False False 
2016-01-02 False False False 
2016-01-03 False False False 
2016-01-04 False False False 
2016-01-05 False False False 


区 
048482 
600140 
006816 
555534 

尼 


736139 
048482 
600140 
006816 
555534 

D F 
False True 
False False 
False False 
False False 
False False 


mmmmnmno5wmwwno 口 


心 w ID 上 
口 口 口 口 口 咯 口 口 口 口 品 


心 w IN Fw 


DataFrame 也 包含 众多 的 一 元 、 二 元 操作 符 ， 比 如 df.mean() 


docs/stable/dsintro.html#dataframe。 


DataFrame 同 样 也 可 以 用 于 合并 或 切 分 ， 考 虑 下 面 的 代码 : 


df = pd.DataFrame (np.random.randn (10, 4)) 
Pieces = [df[:3], df[3:7], df[7:] 


print (pd.concat (pieces)) 


left = pd.DataFrame ({'key': 
right = pd.DataFrame ({'key' 


['foo 
Le 


( 
] 


', fo0'],! 
o', 'foo'], 


print (pd.merge (left, right, on='key')) 


lval'ts [ls 2]3) 
'rval': [4, 5]}) 


df = pd.DataFrame (np.random.randn (8, 4), columns=['A', 'B', 'C', 'D']) 


s = df.iloc[3] 


df.append(s, ignore index=True) 


于 求 特定 轴 上 的 均值 ，df.cumsum() 用 于 求 某 一 轴 向 的 积累 值 等 ， 更 多 的 方法 可 以 参考 文档 : http://pandas.pydata.org/pandas- 


这 里 有 三 种 方法 可 以 做 到 类 似 的 


有 有情 ，concat() 方 法 可 以 将 一 个 列表 的 列表 合并 成 一 个 完整 的 DataFrame; merge() 方 法 则 相当 于 数 直 
因为 所 有 的 key 都 是 foo， 所 以 left 与 right 的 数据 会 做 一 个 笛 卡 儿 积 生成 4 行 数 据 ; 最 后 df 也 支持 类 似 Python 列 表 一 样 的 append() 方 法 ， 上 面 的 代码 运行 之 后 输出 的 结果 如 下 : 


居 库 的 join ， 它 会 将 key 相 同 的 部 分 进行 全 


匹配 。 比 如 上 面 的 例子 中 


位 
村 


0 下 


2 


-0.661266 2.139186 0.061672 - 


心 ,284033 =0.239712 1.601952 ~ 


-0.366901 -0.696193 -1.407358 - 


1.978238 -0.498227 0.675658 - 
.873093 1.472082 0.606314 - 
0.174680 1.835041 -0.880620 - 
0.549976 0.032863 0.303027 - 


=0.112737 =0.239818 -0.905320 一 
-0.177759 0.714518 0.159453 
-0.784090 0.190341 -2.113066 - 


oammmwnb 口 
© 


pd.concat (pieces) 
0 1 


oammmwn 口 


2 


-0.661266 2.139186 0.061672 - 
0.284033 -0.239712 1.601952 - 
-0.366901 -0.696193 -1.407358 - 
1.978238 -0.498227 0.675658 - 
0.873093 1.472082 0.606314 - 
0.174680 1.835041 -0.880620 - 
0.549976 0.032863 0.303027 - 
-O0112737 -0:239818 =0.905320 ~ 
-0.177759 0.714518 0.159453 

-0.784090 0.190341 -2.113066 - 


pd.merge (left, right, on="key") 


key lval rval 


3 
1.099556 
0.462152 
2.3715927 
0.912945 
0.815918 
0.354517 
0.267936 
0.067613 
0.391414 
1.342524 


3 
1.099556 
0.462152 
2.375927 
0.912945 
0.815918 
0.354517 
0.267936 
0.067613 
0.391414 
1.342524 


D 
.055446 
.575142 
.843499 
.486410 
.204255 
.614257 
.561680 


opPppPOOON 


0 foo 1 4 
1 foo 1 5 
演 ce 和 4 
3 foo 2 5 
df.append(s, ignore index=True) 
A B CG 
0 0.173765 -0.985635 -0.166794 
1 -0.270615 0.746859 1.880721 - 
2 0.760948 -1.612376 0.612100 
3 0.156191 1.129411 0.309346 
4 -0.156947 -0.696577 0.213041 
5 1.126087 -0.416309 0.077821 
6 1.239740 -0.057409 -0.644894 
7 0.539107 1.192629 =0.723396 -0.399523 


同样 DataFrame 也 支持 类 似 数 据 库 的 groupby 操 作 ， 参 考 下 面 的 代码 : 


df = pd.DataFrame ({'A': ['foo', ' 
"£06 

'B': ['one', ! 

rtwo', ! 


bar', 'foo', 


机 


one', 'two', 
two', 'one', 


'C': np.random.randn (8), 
'D': np.random.randn (8) } ) 


print (df.groupby ('A') .sum() 
print (df.groupby(['A', 'B'] 


) 
) 


.Sum( 


) ) 


"bar's 
EGG 
'three', 
'three'], 


这 里 有 一 个 包含 两 列 字符 串 的 DataFrame， 我 们 可 以 通过 groupby 进 行 分 组 ， 然 后 再 计算 总 和 ， 首 先 按照 A 栏 中 的 字符 串 进行 分 组 加 总 ， 然 后 按照 AB 两 栏 进行 分 组 加 总 ， 其 输出 的 结果 如 下 : 


C D 


bar -0.331258 -2.350046 
foo -0.811436 -4.468249 


C 


D 


bar one -0.985503 -1.092366 


three -1.041344 -1.311792 
two 1.695589 0.054113 
foo one 0.861533 0.414157 
three -1.616901 -1.934980 
two -0.056068 -2.947427 


请 仔细 查看 这 个 结果 ， 如 果 有 Excel 经 验 的 读者 可 能 会 发 现 ， 这 个 结果 非常 类 似 于 Excel 的 透视 图 ， 没 错 ，groupby 的 功能 与 Excel 透 视图 的 功能 非常 类 似 ， 有 兴趣 的 读者 不 妨 尝试 使 用 这 个 方法 完成 一 个 
以 前 用 Excel 做 的 工作 ， 再 对 比 一 下 结果 。 


最 后 一 个 要 讲 的 Pandas 的 特性 就 是 分 类 类 型 了 ， 参 考 下 面 的 代码 : 


df = pd.DataFrame({"id": [1l, 2, 3 4, S: 6]: "raw grade": [’a'y 'b'; 17 'a's 'a'y 'e']}) 
df["grade"] = df["raw grade"] .astype ("category") 
print (df["grade"]) 


一 个 简单 的 创建 分 类 序列 的 方式 是 ， 对 DataFrame 的 某 一 栏 调用 astype("category") 方 法 ， 上 面 程序 的 输出 结果 为 : 


OppITvp 


ame: grade, dtype: category 


这 种 类 型 可 以 用 作 分 类 算法 的 分 类 栏 。 
在 简单 介绍 了 Pandas 的 基本 功能 之 后 ， 让 我 们 以 一 个 实战 的 例子 来 总 结 一 下 Pandas 的 操作 。 


目 我 们 在 Numpy 的 小 节 中 介绍 过 Numpy 中 的 类 型 系统 ，Pandas 基 本 上 沿用 了 Numpy 的 类 型 系统 。 


10.2.2 ”泰坦 尼克 号 生存 率 分 析 实战 


泰坦 尼克 号 的 事故 想必 很 多 读者 都 知道 ， 甚 至 还 看 过 电影 。 泰 坦 尼克 号 总 乘客 数 为 2224 名 ， 在 这 场 灾难 当中 共有 1502 名 乘客 不 幸 遇难 ， 关 于 救援 和 逃生 ， 很 多 人 相信 是 因为 救生 艇 准备 不 充分 ， 以 及 附 
近 的 船只 没有 及 时 救援 所 导致 ， 还 有 一 些 人 认为 性 别 、 年 龄 或 是 阶级 也 与 生存 率 有 关 ， 现 在 就 让 我 们 通过 数据 的 方式 来 探索 一 下 其 中 的 原因 ， 顺 便 巩 固 一 下 前 面 刚刚 学 习 的 Pandas 的 知识 。 


先 来 载 入 数据 ， 参 考 代码 清单 10-2。 


代码 清单 10-2: titanic_analysis.py 


# ! /usr/bin/python 
# = ooding: utf-8 一 


from __ future ”import print function 
import numpy as np 

import matplotlib.pyplot as plt 
import pandas as pd 


pd.set option('display.max columns', None) 
pd.set option('display.width', 180) 
pd.set option('max colwidth', 110) 


data = pd.read csv('/Users/jilu/Downloads/train.csv') 
print (data) 


代码 清单 10-2 中 首先 导入 了 几 个 必要 的 模块 ， 然 后 设置 了 一 下 Pandas 的 显示 选项 。 为 什么 要 设置 显示 选项 呢 ? 设置 display.max_columns 的 原因 是 因为 当 df 的 栏 过 多 时 ，Pandas 只 会 打印 其 中 的 一 部 
分 栏 ， 而 这 不 是 我 们 想 要 的 ， 若 想 要 查看 所 有 的 栏 可 以 将 display.max_columns 设 置 成 None。 设 置 display.width 的 原因 是 因为 Pandas 默 认 的 打印 结果 会 按照 80 个 字符 的 长 度 进行 截断 换行 ， 这 样 再 显示 栏 
过 多 的 数据 时 就 可 以 很 美观 地 进行 格式 化 了 。 不 过 80 个 字符 实在 是 太 少 了 ， 你 真正 使 用 时 就 会 发 现实 际 打印 出 来 的 文字 甚至 还 占 不 到 半 个 屏幕 ， 所 以 要 将 display.width 设 置 成 180 个 字符 。 最 后 设置 
max_colwidth 为 110， 这 表示 每 一 个 栏 如 果 字符 较 多 则 最 多 显示 110 个 字符 ， 因 为 在 人 名 这 一 栏 上 ， 外 国人 可 能 会 有 较 长 的 名 字 ， 所 以 需要 显示 这 么 多 字符 。 在 设置 了 上 面 的 参数 之 后 ,我 们 使 用 Pandas 的 
read_csv0 函 数 读 取 CSV 文 件 ， 其 打印 的 结果 如 图 10-3 所 示 [1]。 


/usr/local/Cellar/python/2.7,11/Frameworks/Python, framework/Versions/2,7/bin/python2.7 /Users/jilu/GitHub/hook2/titanic_analysis.py 
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Cabin Embarked 
9 3 Braund, Mr. Owen Harris male A/5 21171 
Cumings, Mrs. John Bradley (Florence Briggs Thayer) female PC 17599 

Heikkinen, Miss, Laina female STON/02, 3191282 

Futrelle, Mrs, Jacques Heath (Lily May Peel) female 113863 

Allen, Mr, William Henry male 373450 

Moran, Mr. James male 336877 

McCarthy, Mr. Timothy J male 17463 

Palsson, Master. Gosta Leonard male 349969 

Johnson, Mrs. Oscar W (Elisabeth VitheUmina Berg) female 347742 

Nasser, Mrs. Nicholas (Adele Achem) female 237736 

Sandstrom, Miss. Marguerite Rut female PP 9549 

Bonnell, Miss, Elizabeth female 113783 

Saundercock, Mr, William Henry male A/5, 2151 

Andersson, Mr. Anders Johan male 347682 

Vestrom, Miss. Hulda Amanda Adolfina female 350406 

Hewlett, Mrs. (Mary D Kingcome) female 248796 

Rice, Master, Eugene male 382652 

Williams, Mr. Charles Eugene male 244373 

Vander Planke, Mrs, Julius (Emelia Maria Vandemoortele) female 345763 

Masselmani, Mrs. Fatima female 2649 

Fynney, Mr, Joseph J male 239865 
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图 10-3 需要 处 理 的 CSV 文 件 


让 我 们 来 看 一 下 每 一 列 的 定义 ， 在 代码 清单 中 加 入 如 下 代码 : 


print (data.xs (0)) 


df 的 xs() 方 法 代表 横断 面 (cross-section) ， 比 如 这 里 使 用 参数 0 调用 则 表示 以 行为 横断 面 探索 数据 ， 其 输出 的 结果 为 : 


PassengerId 

Survived 

Pclass 

Name Braund, Mr. Owen Harri: 


Www 口上 


Sex male 


Age 22 
Sibsp 
Parch 0 
Ticket R/5 21171 
Fare Ta 
Cabin NaN 
Embarked S 


Name: 0, dtype: object 


这 


栏 的 含义 是 乘客 的 阶级 ，1 表 示 上 层 阶级 ，2 表 示 中 


层 阶 级 ，3 表 示 下 


好像 是 将 df 沿 着 行 的 方向 切 下 一 片 (第 一 行 ) 一 样 。 在 这 份 数据 中 ，Passengerld 是 一 个 自 增 的 乘客 ID， 并 没有 实际 的 含义 ; servived 栏 表示 是 否 存活 ， 值 为 0 表示 未 存活 ， 值 为 1 表示 存活 ; Pclass 
层 阶 级 ; Name 栏 中 是 乘客 的 姓名 ; Sex 栏 是 乘客 的 性 别 ，Age 是 上 


户 的 年 龄 ; SibSp 代 表 该 名 乘客 同行 的 兄弟 姐妹 的 人 数 ，Parch 代 表 该 


贝 枉 旦 .. 
未 号 , 


名 乘客 同行 的 父母 子女 的 人 数 ; Ticket 代 表 骨 
镇 ) ，S 代 表 Southampton (英国 ， 南 安普敦 ) 。 


Fare 代 表 船 票 的 价格 ; Cabin 代 表 船 舱 ， Embarked 代 表 上 船 地 点 ， 


国 


5] 


中 C 代 表 Cherbourg (法 国 ， 瑟 堡 ) ，Q 代 表 Queenstown (新 西 兰 ， 皇 后 


在 电影 中 ， 最 感动 人 心 的 一 幕 就 是 很 多 绅士 将 救生 船 的 位 置 让 给 妇女 儿童 ， 所 以 我 们 的 第 一 个 推断 就 是 女性 的 幸存 率 较 高 。 为 了 验证 这 个 推断 ， 可 以 在 代码 清 生 


率 的 计算 : 
men = dataldata.Sex == 'male'] 
women = dataldata.Sex == 'female'] 


proportion women survived = float (sum (women.Survived)) / len (women) 
proportion men survived = float (sum(men.Survived)) / len (men) 
print ('female: ', proportion women survived) 

print('male: ', proportion men survived) 


首先 按照 Sex 的 值 将 原始 的 数据 按 男女 分 为 两 组 ， 然 后 分 别 用 幸存 的 人 数 除 以 总 人 数 ， 计 算得 到 幸存 率 : 


0.742038216561 
0.188908145581 


female: 
male: 


和 10-2 中 添加 如 下 的 代码 来 进行 男女 幸存 


很 明显 ， 我 们 的 推论 被 证 实 了 了 ， 女 性 的 存活 率 远 远大 于 男性 的 存活 率 。 虽 然 结 果 没 有 问题 ， 不 过 既然 我 们 使 


Pandas 就 希望 在 计算 上 能 够 方便 一 下 ， 那 么 有 没有 更 简便 的 方式 进行 同样 的 计算 呢 ? 参 


考 下 面 的 代码 : 


print (data.groupby ('Sex') .Survived.mean()) 


首先 ， 由 于 我 们 将 幸存 者 的 Survived 的 值 定 为 1， 霄 生 的 人 定 为 0， 所 以 计算 生存 率 的 公式 与 计算 Survived 这 一 列 的 均值 的 公式 是 相同 的 。 另 外 ， 分 组 操作 也 可 以 使 


的 那 一 行 代码 ， 其 运行 结果 与 第 一 种 方法 相同 ， 代 码 如 下 : 


Sex 
female 0.742038 
male 0.188908 


Name: Survived, dtype: float64 


此 就 有 了 上 面 


groupby0 函 数 ， 因 


品 
里 


仍然 是 使 


然 打印 的 小 数位 数 变 少 了 ， 但 是 请 注意 程序 在 这 生 


另外 一 个 推测 就 是 年 龄 较 小 的 儿童 ， 尤 其 是 5~6 岁 以 下 的 儿童 将 会 有 很 大 的 生存 率 ， 让 我 们 来 验 订 


import matplotlib.style 
matplotlib. style.use('ggplot') 


need data = data.loc[:, ['Age', 'Survived']] .dropna (how='any') 
need data[ 'Age'] = need data['Age'] .apply (round) .astype ('int16') 
grouped = need data.groupby ('Age') .Survived 

survived = grouped. sum() 

died = grouped.size() - survived 

df = pd.DataFrame (dict (died=died, survived=survived)) 
df.plot.bar (figsize=(20, 10)) 


一下， 在 代码 清和 


float64 的 精度 来 保存 数据 的 ， 真 正 的 数据 并 没有 损失 精度 。 


10-2 中 加 入 下 面 的 代码 : 


plt. show() 

与 以 往 不 同 的 是 ， 这 一 次 使 用 了 ggplot 的 风格 进行 绘图 ， 整 体 风格 更 加 现代 一 些 。 首 先 要 将 年 龄 和 幸存 与 否 的 字段 单独 拿 出 来 ， 然 后 将 小 数 的 年 龄 四 舍 五 入 取 近 似 的 整数 值 ， 再 按照 年 龄 进行 
groupby。 通 过 一 系列 的 处 理 ， 最 终 df 的 数据 只 包含 每 个 年 龄 中 幸存 的 和 丧生 的 人 数 ， 绘 出 的 图 像 如 图 10-4 所 示 。 

因为 年 龄 的 数量 太 多 了 ， 所 以 图 片 比较 小 。 不 过 仍然 可 以 看 出 ， 在 6 岁 以 下 灰色 的 柱 (代表 幸存 数 ) 是 远大 于 黑色 柱 的 ， 而 在 其 他 的 年 龄 段 上 丧生 率 则 要 大 一 些 。 


最 后 一 个 推论 就 是 阶级 因素 了 ， 还 记得 
10.3 节 将 会 简单 地 介绍 一 下 著名 的 Python 机 器 学 习 模 块 Scikit-learn， 到 时 候 我 们 还 会 使 有 


影 中 贵族 们 慷慨 赴 死 的 镜头 么 ， 显 然 ， 无 论 在 哪个 生 
这 里 的 数据 。 


F 代 这 都 是 一 种 绅士 行为 。 读 者 们 不 妨 


自己 尝试 一 下 ,使 用 本 章 介绍 的 方法 探索 一 下 这 个 推论 是 否 成 立 。 


mm died 
survived 
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Age 


图 10-4 每 个 年 龄 中 幸存 和 起 生 的 人 数 
[由 由 于 栏 实在 太 多 了 ， 直 接 列 出 文本 将 没 法 正确 地 显示 ， 所 以 这 里 只 是 一 张 控制 台 的 截图 。 


10.3 Scikit-learn 入 门 和 实战 


Scikit-learn 是 最 为 著名 的 Python 机 器 学 习 库 ， 一 般 提 到 机 器 学 习 ， 就 表示 通过 让 机 器 对 一 小 部 分 已 知 的 样本 进行 学 习 ， 然 后 对 更 多 的 未 知 样本 中 的 某 些 属性 进行 预测 。 这 些 属 性 一 般 也 称 为 “ 特 
征 ”。 根 据 处 理 问 题 的 方式 不 同 ， 机 器 学 习 大 致 分 为 下 面 的 几 类 。 


1 监督 学 习 


所 谓 监督 学 习 就 是 通过 所 有 特征 已 知 的 训练 集 让 机 器 学 习 其 中 的 规律 ， 然 后 再 向 机 器 提供 有 一 部 分 特征 未 知 的 数据 集 ， 让 机 器 帮 有 我 们 补 全 其 中 未 知 部 分 的 一 种 方法 ， 主 要 包括 下 面 两 大 类 。 


: 分 类 ， 根 据 样本 数据 中 已 知 的 分 类 进行 学 习 ， 对 未 知 分 类 的 数据 进行 分 类 就 称 为 分 类 。 举 例 来 说 某 个 饮料 分 类 中 的 物品 有 下 列 特 征 : 液体 ， 瓶 装 ， 可 食用 ， 保 质 期 12 个 月 ， 那 么 同样 拥有 类 似 特 征 的 
物品 则 可 能 会 被 分 类 到 饮料 中 。 虽 然 对 于 超市 来 说 ， 这 种 分 类 大 多 是 人 工 进 行 的 ， 但 是 对 于 更 复杂 的 场景 ， 比 如 对 数 亿 张 照片 ， 如 何 按照 题材 对 照片 进行 分 类 ， 利 用 搜索 引擎 就 能 很 好 地 完成 这 份 工作 。 


及 
: 


“ 回归 ， 根 据 样本 中 的 离散 的 特征 描绘 出 一 个 连续 的 回归 曲线 ， 之 后 只 要 能 给 出 其 他 任意 几 个 维度 的 值 就 能 够 确定 某 个 缺失 的 维度 值 的 方法 就 称 为 回归 。 典 型 的 回归 就 是 ， 利 用 人 类 的 性 别 、 年 龄 、 家 
族 成 员 等 信息 建立 一 个 身高 的 回归 方程 ， 以 预测 新 生 儿 各 个 年 龄 阶段 的 身高 。 


2 .无 监督 学 习 


无 监督 学 习 不 会 为 机 器 提供 正确 的 样本 进行 学 习 ， 而 是 靠 机 器 自己 去 寻找 可 以 参考 的 依据 ， 通 常 使 用 距离 函数 或 是 凸 包 理论 等 方式 对 给 定 的 数据 集 进 行 聚 类 。 


聚 类 的 典型 应 用 是 对 用 户 进行 聚 类 分 析 ， 比 如 按照 用 户 访问 网 站 的 行为 将 用 户 分 成 不 同 的 类 型 ， 通 过 聚 类 发 现 不 同 的 收入 水 平 ， 或 者 不 同 风格 偏好 的 用 户 。 


要 想 讲 完 机 器 学 习 的 所 有 知识 ， 好 几 本 书 都 不 够 ， 所 以 本 节 并 不 会 将 机 器 学 习 的 方方面面 都 覆盖 到 ， 甚 至 因为 要 想 系 统 地 研究 机 器 学 习 首 先 需要 大 量 的 关于 数学 、 概 率 、 线 性 代数 及 算法 等 方面 的 知 
识 ， 所 以 这 里 只 能 避重就轻 地 讲解 一 些 基础 的 入 门 知识 。 希 望 能 让 读者 对 机 器 学 习 有 一 个 粗浅 的 了 解 ， 为 未 来 的 继续 学 习 打 下 一 定 的 基础 。 


本 节 将 使 用 Scikit-learn 这 个 第 三 方 模块 ， 可 以 通过 下 面 的 命令 进行 安装 : 


$pip install sklearn 
$pip install scipy 


10.3.1 机 器 学 习 术语 


先 了 解 一 下 机 器 学 习 中 的 术语 将 有 助 于 我 们 快速 地 吸收 知识 ， 虽 然 短 短 的 一 节 无 法 涵盖 所 有 的 机 器 学 习 知识 ， 但 是 希望 读者 对 机 器 学 习 能 有 一 个 整体 的 认识 ， 为 以 后 的 学 习 打 下 基础 。 


“ 训练 集 /测试 集 : 通常 在 有 监督 的 机 器 学 习 中 会 有 一 组 已 知 其 分 类 或 结果 值 的 数据 ， 一 般 来 说 我 们 不 能 把 这 些 数据 全 部 用 来 进行 训练 ， 如 果 使 用 全 部 的 数据 进行 训练 ， 那 么 将 有 可 能 导致 过 拟 合 。 而 且 
我 们 也 需要 用 一 部 分 的 数据 来 验证 算法 的 效果 。 


“ 过 拟 合 : 所 谓 过 拟 合 ， 就 是 训练 后 的 算法 虽然 严格 地 符合 训练 集 ， 但 可 能 会 在 面 对 真 正 的 数据 时 效果 变 差 ， 如 图 10-5 所 示 ， 通 过 每 个 点 的 这 条 线 就 是 过 拟 合 的 结果 ， 而 只 是 大 致 描绘 每 个 点 分 布 的 这 
条 线 则 是 正常 训练 的 结果 。 过 拟 合 的 训练 结果 将 会 使 算法 在 测试 时 表现 得 完美 无 缺 ， 但 是 实际 应 用 时 却 很 不 理想 。 


“ 特征 工程 : 假设 图 10-5 是 一 个 真正 的 样本 数据 ， 那 么 x 轴 和 y 轴 就 是 数据 特征 。 而 特征 工程 的 目的 就 是 针对 原始 数据 中 千奇百怪 的 数据 进行 数量 化 ， 每 一 个 样本 将 形成 一 个 特征 向 量 来 描绘 这 个 样本 。 
在 特征 工程 中 ， 我 们 不 仅 会 处 理 确实 的 数据 ， 还 会 避免 某 一 维度 的 特征 过 分 主导 结果 ， 进 行 归 一 化 的 操作 。 


10-5 过 拟 合 的 结果 


“ 数据 挖掘 十 大 算法 : 经 典 的 数据 挖 据 算 法 主要 有 10 种 ， 包 括 C4.5 决 策 树 、 开 -均值 、 支 


竺 向 量 机 (SVM) 、Apriori、 最 大 期 望 (EM) 、Pagerank、AdaBost、K- 邻 近 (KNN) 、 朴 素 贝 叶 斯 算法 和 分 类 回 


归 树 算法 。 其 中 Apriori 算 法 和 Pagerank 算 法 并 不 包含 在 Scikit-learn 之 中 。 本 章 已 经 介绍 过 KNN 人 
一 个 具体 的 流程 ， 使 用 者 只 需要 按照 流程 提供 其 所 需要 的 数据 格式 的 数据 即 可 。 


算法 了 ， 若 想 要 了 解 其 他 算法 的 具体 原理 ， 可 以 找 专门 的 一 些 图 书 进 行 学 习 。Scikitlearn 已 经 将 这 些 算 法 封装 成 了 


“ 正确 率 /召回 率 /ROC 曲 线 : 这 些 是 用 来 衡量 机 器 学 习 算 法 效果 的 三 个 指标 。 正 确 率 ， 顾名思义 就 是 正确 的 比率 是 多 少 ,但 这 实际 上 掩盖 了 样本 是 如 何 被 分 错 的 。 在 一 个 二 分 类 的 任务 中 ， 被 正确 分 类 
的 正 例 与 所 有 正 例 ( 包 含 被 错误 分 类 为 负 例 的 正 例 ) 的 比值 就 叫 作 召 回 率 ， 召 回 率 越 大 表示 被 错 判 的 正 例 就 越 少 。ROC 曲 线 则 是 “被 正确 分 为 正 例 的 正 例 vs 被 错误 分 为 正 例 的 负 例 ” 的 曲线 ， 如 图 10-6 所 


该 曲线 的 含义 很 难 描述 ， 图 10-6 的 左上 角 代表 当 没有 负 例 被 错误 地 分 类 为 正 例 时 ， 全 部 


的 正 例 都 会 被 正确 地 分 类 。 不 过 当 曲 线 贴 近 左上 角 时 这 条 曲线 下 的 面积 (AUC 面 积 ) 就 是 最 大 的 状态 ， 此 时 则 代 


表 这 个 分 类 器 是 完美 的 分 类 器 ， 我 们 用 AUC=1 来 表示 。 图 10-6 中 的 曲线 是 表示 随机 猜测 的 ROC 曲 线 ， 此 时 AUC=0.5， 所 以 可 以 用 AUC 来 描述 一 个 分 类 器 的 好 坏 。 


“ 降 维 : 有 的 时 候 我 们 所 获取 的 数据 有 几 万 到 几 亿 个 维度 (自然 语 处 理 很 容易 达到 这 个 数量 级 ) ， 此 时 就 需要 通过 一 些 手段 ， 比 如 SVD 分 解 ， 或 者 组 成 成 分 分 析 等 手段 来 消去 对 结果 不 产生 影响 或 影响 


微小 的 维度 ， 以 减 小 对 算 力 的 需求 。 
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10.3.2 ”Scikit-learn 基 础 


一 个 完整 的 机 器 学 习 的 流程 应 当 如 下 所 示 。 


1) 收集 数据 ， 我 们 可 以 通过 网 络 拒 虫 或 系统 日 志 及 其 他 已 经 结构 
据 决定 了 机 器 学 习 能 力 的 上 限 ， 算 法 只 能 尽 可 能 地 逼近 这 个 上 限 而 已 ” 


AUC= 91.96 % 


0.6 08 1.0 


FPR 


图 10-6 ROC 曲线 


化 好 的 数据 来 获取 机 器 学 习 中 必要 的 数据 。 在 一 个 机 器 学 习 的 任务 中 ， 数 据 的 重要 性 是 最 高 的 ， 在 行业 中 流传 甚 广 的 一 句 名 言 就 是 “ 数 


2) 特征 工程 ， 在 常规 的 机 器 学 习 任务 中 ， 特 征 工 程 是 仅 次 于 数据 的 一 个 工作 ， 可 以 说 在 有 了 原始 数据 之 后 80% 的 工作 都 是 在 做 特征 工程 。 也 就 是 将 数据 处 理 成 适合 某 种 算法 处 理 的 结构 ， 补 全 确实 的 数 


据 ， 为 数据 集 构建 合理 的 特征 。 


3) 训练 算法 ， 从 这 一 步 开 始 才 是 进行 真正 的 机 器 学 习 ， 虽 然 可 能 要 经 历 选 择 算法 和 调 参 的 步 又， 不 过 大 多 数 算法 都 是 值得 信任 的 。 而 且 有 些 算法 的 参数 极其 简单 ， 有 些 甚至 只 有 一 个 迭代 次 数 的 参数 ， 
这 里 工程 人 员 能 做 的 工作 并 不 多 。 在 训练 完 算法 之 后 可 以 得 到 一 个 模型 。 


4) 测试 模型 ， 通 过 正确 率 / 召 回 率 /AUC 等 指标 衡量 模型 的 好 坏 ， 


5) 应 用 模型 ， 在 完成 前 面 的 所 有 工作 之 后 ， 就 可 以 将 这 个 模型 


在 学 习 Scikit-learn 时 ， 为 了 方便 ，Scikit-learn 已 经 内 置 一 些 常用 
中 导入 ， 参 考 下 面 的 代码 : 


再 根据 结果 尝试 调整 特征 工程 或 算法 的 参数 ， 再 次 训练 算法 得 到 模型 ， 测 试 模型 ， 直 到 效果 令 我 们 满意 为 止 。 


于 真正 的 工作 中 了 。 


的 数据 集 ， 比 如 我 们 曾经 使 用 过 的 营 


尾 花 数据 集 ， 或 者 是 手写 数字 的 数据 集 ， 这 两 种 数据 集 可 以 直接 从 Scikit-learn 的 子 模块 datasets 


# ! /usr/bin/python 
# -*= coding; utf-8 =*— 


from _ future _ import print function 
from sklearn import datasets 


iris data = datasets.1load iris() 
digits data = datasets.load digits() 


print ('iris data\n', iris data.data) 
print('digits data\n', digits data.data) 


无 论 是 iris_data 还 是 digits data 的 数据 ， 都 是 一 种 类 似 字典 的 结构 []， 上 面 的 程序 的 输出 结果 为 : 


iris data 
| 


4.9. 3, 1.4 0.2] 
4 3 ;G21 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/ 
i | 
6.27 .3 5253] 
Se 3 ap | 
iris target 
0 0 0 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 2 2 2] 
digits data 
[ 0. 0. 5. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 0. 0. 0.] 
0. 0. 0. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 10. 0. 0.] 
0. 0. 0. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 16. 9 GQ] 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/.. 
0. 0. 1. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/ 和 G0 0.] 
0. 0. 2. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 12. 0 0.] 
0. 0. 10. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 12. 1 0.]] 


digits target 


0 1 2 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., 8 9 8 


在 Scikit-learn 中 所 有 分 类 的 算法 都 有 两 个 方法 fit(x,y) 和 predict(T)，fit0 方 法 用 来 训练 算法 ，predict(T) 则 
单 的 尝试 ， 现 在 可 以 简单 地 将 算法 看 成 是 一 个 


器 ， 代 码 如 下 : 


来 做 一 次 分 类 的 测试 。 本 节 会 选用 Scikit-learn 提 供 的 支持 向 量 机 (SVM) 的 算法 进行 一 次 简 


黑 盒 ， 而 无 须 关 心 具体 的 细节 ， 只 须 关注 使 


方法 即 可 。 想 


使 


Scikit-learn 提 供 的 支持 向 量 机 算法 ， 需 要 导入 相应 的 子 模块 ， 并 使 用 参数 初始 化 一 个 分 类 


from sklearn import svm 


clf = svm.SVC (gamma=0.001, C=100.) 


这 里 先 不 用 管 这 两 个 参数 的 含义 ， 我 们 才刚 刚 开始 。 下 面 就 使 


除 最 后 一 行 之 外 其 余 的 数据 进行 训练 ， 调 有 


ft0 函 数 ， 针 对 手写 数字 数据 集 进 行 训练 : 


clf.fit (digits data.data[:-1], digits data.target[:-1]) 


然后 调用 predict0 函 数 进行 测试 : 


print('predicted', clf.predict (digits data.data[-1:])) 


print('true', digits data.target[- 


i 


predicted [8] 
true [8] 


预测 的 结果 与 实际 的 结果 一 致 ， 都 是 8。 为 了 将 原始 数据 及 其 中 的 手写 字数 据 绘制 出 来 ， 可 以 使 


下 面 的 程序 : 


import matplotlib.pyplot as plt 
plt.figure(1l, figsize=(3, 3)) 


plt.imshow (digits data.images[-1], cmap=plt.cm.gray r, interpolation='nearest') 


plt. show() 


运行 程序 得 到 的 图 ， 如 图 10-7 所 示 。 


DO 上 WIN 号 


0 1 2 3 


图 10-7 手写 字 


4 .56 7 


虽然 这 张 图 片 非常 的 模糊 ， 作 为 人 类 甚至 也 很 难 识别 出 来 ， 不 过 模型 得 到 了 正确 的 结果 ， 现 在 再 回来 看 一 下 ， 是 不 是 有 一 点 像 “8” 呢 。 


每 当 我 们 训练 完 模型 之 后 ， 当 然 想 将 模型 保存 下 来 以 供 后 续 的 使 用 。 有 两 种 方式 可 以 做 到 : 一 种 是 使 用 Python 标准 库 pickle 进 行 序列 化 ; 另 一 种 是 使 用 Scikit-learn 的 joblib 模 块 。 下 面 的 代码 分 别 展示 


了 这 两 种 方法 : 


# 方法 1 
import pickle 


with open('/Users/jilu/Downloads/clf', ‘'a') as fw: 
pickle.dump (clf, fw) 

with open('/Users/jilu/Downloads/clf', 'r') as fr: 
clf = pickle.load (fr.read()) 


# 方法 2 
from sklearn.externals import joblib 


joblib.dump (clf, '/Users/jilu/Downloads/clf') 
clf = joblib.1load('/Users/jilu/Downloads/clf') 


这 两 种 方法 的 效果 比较 类 似 ， 但 是 更 推荐 使 用 第 二 种 方法 ， 因 为 这 种 方法 更 加 方便 。 


本 节 简 单 地 介绍 了 如 何 使 用 Scikit-learn 进 行 机 器 学 习 ， 虽 然 没 有 涉及 具体 算法 的 知识 ， 但 实际 上 使 用 Scikit-learn 的 目的 就 是 减少 对 使 用 者 的 基础 知识 的 要 求 丫 。10.3.2 节 将 通过 一 个 实际 的 例子 来 加 深 


对 于 scikit-learn 的 应 用 ， 顺 便 补 充 一 些 关 于 算法 的 知识 。 


[1 实际 上 Scikit-leam 是 使 用 Numpy 的 数据 结构 进行 存储 和 计算 的 。 
加] 若 想 查阅 其 他 的 算法 如 何 使 用 可 以 参考 : http://scikit-learn.org/stable/tutorial/statistical_inference/index.html。 


10.3.2 实战 


本 节 将 使 用 随机 森林 算法 ， 并 以 泰坦 尼克 号 乘客 幸存 的 情况 作为 训练 集 ， 得 到 一 个 沉船 时 乘客 幸存 与 否 的 模型 。 


为 这 份 数据 在 前 面 的 章节 中 已 经 探索 过 了 ， 所 以 这 里 直接 从 算法 开始 。 


在 讨论 随机 森林 之 前 ， 先 让 我 们 了 解 一 下 组 成 随机 森林 的 基础 一 决策 树 算法 。 考 虑 这 样 一 个 场景 : 在 网 上 购买 商品 时 ， 面 对 一 个 具体 的 商品 ， 确 定 是 否 购买 时 一 般 会 经 历 哪些 决策 ”请 参考 图 10-8。 


每 一 个 抉择 都 会 经 历 一 个 判断 ， 可 能 你 会 做 更 多 的 决策 ， 不 过 最 终 的 结果 只 是 把 某 一 个 商品 分 类 为 买 还 是 不 买 。 事 实 上 ， 决 策 树 算法 所 做 的 事情 也 与 之 类 似 ， 即 基于 原始 数据 中 的 每 一 个 数据 的 维度 ， 


自 根 节点 (图 10-8 的 顶端 ) 开始 往 叶 节点 (图 10-8 最 底 端 的 节点 ) 中 逐步 评估 特征 分 裂 的 信息 增益 ， 最 后 选 出 分 割 数据 及 最 优 的 特征 。 信 息 增益 通过 计算 节点 的 不 纯度 〈 即 节点 标签 不 类 似 的 程度 ) 来 判断 
哪 种 分 割 方式 是 最 优 的 ， 通 常 来 说 ， 可 以 使 用 基尼 不 纯度 来 衡量 。 


而 随机 森林 算法 ， 顾 名 思 义 就 是 以 随机 的 方式 建立 一 个 森林 ， 里 面 有 很 多 决策 树 组 成 ， 树 与 树 之 间 是 没有 关系 的 。 在 得 到 森林 之 后 ， 当 有 一 个 新 的 样本 输入 的 时 候 ， 让 所 有 的 数 都 决策 一 下 看 样本 属于 
哪个 分 类 ， 哪 一 种 类 被 选择 的 最 多 ， 随 机 森林 最 终 的 结果 就 是 哪个 分 类 。 虽 然 使 用 Scikit-learn 并 不 需要 我 们 实现 机 器 学 习 的 代码 ， 但 是 能 够 理解 其 中 的 原理 还 是 有 一 些 好 处 的 。 


材料 满意 么 


图 10-8 决策 树 


在 进行 机 器 学 习 训 练 之 前 ， 要 将 样本 中 的 数据 数值 化 ， 即 让 不 是 数字 的 字符 串 转化 为 数字 。 我 们 可 以 简单 地 进行 枚 举 。 比 如 某 一 列 数据 中 仅 包 含 2 个 不 同 的 值 (还 记得 泰坦 尼克 号 的 例子 吗 ” 在 Sex 那 一 
列 只 包含 female 和 male 两 种 值 ) ， 我 们 可 以 令 其 中 一 个 为 0， 另 外 一 个 为 1。 数 值 化 的 好 处 是 可 以 节约 模型 存储 的 数据 量 ， 以 及 计算 时 比较 字符 需要 消耗 的 算 力 。 参 考 下 面 的 代码 : 


# ! /usr/bin/python 
# -*~ coding: utf-8 -*— 


from __ future _ import print function 
import random 
import csv as csv 


import pandas as pd 
import numpy as np 


from sklearn.ensemble import RandomForestClassifier 
data df = pd.read csv('/Users/jilu/Downloads/train.csv', header=0) 


# 将 性 别 转换 成 数字 表示 ，1 表 示 男 性 ，0 表 示 女 性 
data df.Sex = data df.Sex.map({'female': 0, 'male': 1}) .astype (int) 


# 将 登 船 地 点 转换 为 数字 表达 
embarded dict = dict (map (lambda x: x[::-1], enumerate (np.unique (qata_df.Embarked) ))) 
data df.Fmbarked = data df.FEmbarked.map (embarded dict) .astype (int) 


首先 我 们 需要 导入 必要 的 模块 ， 然 后 使 用 pandas 的 read_csv() 方 法 读 取 数 据 。 这 里 有 两 列 字段 需要 数值 化 ， 一 个 是 性 别 ， 另 外 一 个 是 登 船 地 点 。 分 别 使 用 了 两 种 模式 ， 第 一 种 是 硬 编码 一 个 数值 化 的 对 


照 表 ， 将 female 映射 为 0，male 映 射 为 1。 代 码 如 下 : 


{'female': 0, 'male': 1} 


第 二 种 方法 ， 当 枚 举 类 型 较 多 时 ， 可 以 使 用 Python 的 enumerate() 方 法 为 列表 中 的 每 个 元 素 生成 一 个 自 增 的 数字 编号 ， 如 果 将 embarded dict 打 印 出 来 ， 应 该 是 下 面 这 个 样子 : 


them: fs "QOY 2 CY 1 "3°83 


其 中 ，np.unique0 溯 数 可 以 统计 数组 中 唯一 出 现 的 值 。 在 这 里 可 以 使 用 一 个 技巧 ， 即 使 用 map0 函 数 翻转 enumerate0 生 成 的 值 对 列表 中 每 个 值 对 的 顺序 。 可 以 参考 下 面 的 两 个 例子 理解 一 下 这 个 浮 数 


的 功能 : 


>>> list (enumerate('abc')) 

LD ‘ays (lr "B's: (2 "ol 

>>> map (lambda x: x[::-1], list (enumerate('abc'))) 
[(a' 0), ('b', 1), ('c', 2)] 

py 


map0 函 数 会 将 第 一 个 参数 中 的 lambda 函 数 作用 于 第 二 个 序列 类 型 参数 中 的 每 一 个 元 素 ， 并 且 会 返回 一 个 新 的 序列 类 型 。 


前 面 几 节 中 探索 泰坦 尼克 号 的 幸存 者 数据 时 ， 发 现 有 一 部 分 的 数据 是 缺失 的 ， 在 刚刚 统计 登 船 地 点 时 缺失 值 NaN 被 映射 成 了 0 值 ， 所 以 现在 要 将 几 个 可 能 为 空 的 列 中 的 空 值 用 其 他 值 进行 补 全 。 补 全 的 


原则 很 简单 ， 枚 举 类 型 的 列 将 用 众 数 (mode) 补 全 ， 数 值 类 型 的 列 将 用 中 位 数 补 全 []。 接 下 来 请 把 下 面 的 代码 加 入 代码 清单 10-2 中 


# 计算 数据 集中 登 船 地 点 中 的 众 数 mode) ， 并 且 将 缺失 登 船 地 点 的 全 部 赋值 为 最 常见 的 地 点 
embarked mode = pd.Series (data df.FEmbarked) .dropna() .mode () .values 
data df.Fmbarked[data df.Embarked.isnull()] = embarked mode 


# 使 用 年 龄 的 中 位 数 补 全 缺失 的 年 龄 信息 
median age = data df.Age.dropna() .median () 


data df.Age[data df.Age.isnull()] = median age 

# 按照 每 个 阶级 的 中 位 数 票 价 补 全 缺失 的 票 价 信息 

class median fare = dict(data_df.loc[:，["Pclass"，"Fare"]] .dropna (how="'any') .groupby('Pclass').Fare.median()) 
data df.Fare[data df.Fare.isnull()] = data df.Pclass[data df.Fare.isnull()] .map(class median fare) 

这 里 将 补 全 三 列 : 登 船 地 点 、 年 龄 及 票 价 ， 补 全 的 方式 是 一 样 的， 下 面 就 拿 其 中 的 一 个 进行 举例 说 明 。 


比如 计算 登 船 地 点 的 众 数 时 ， 我 们 会 先 取得 登 船 地 点 的 那 一 列 数据 ， 然 后 删除 掉 空 值 ， 使 用 mode() 函 数 计算 众 数 ， 最 后 只 要 使 用 上 一 节 讲 过 的 赋值 方式 ， 将 所 有 的 空 值 使 用 计算 出 来 的 众 数 进行 补 全 。 


补 全 数值 类 型 的 列 除 了 计算 数值 的 中 位 数 时 要 使 用 median() 函 数 之 外 ， 并 没有 什么 区 别 。 这 里 要 着 重 看 一 下 补 全 票 价 信息 时 ， 我 们 所 要 做 的 额外 操作 。 


训练 算法 时 出 现 太 大 的 误差 。 


在 补 全 票 价 信息 时 ， 为 了 公平 ， 我 们 希望 按照 不 同 的 阶级 来 计算 出 每 个 阶级 票 价 的 中 位 数 ， 然 后 分 别 进行 补 全 。 因 为 很 显然 ， 收 入 不 同 ， 所 选择 的 票 价 也 应 该 不 同 。 只 要 注意 了 这 一 点 就 不 会 在 后 面 的 


接 下 来 就 是 将 每 名 乘客 的 ID 单独 提 取出 来 ， 并 删 掉 对 分 类 没有 太 大 帮助 的 列 ， 最 重要 的 是 将 数据 分 为 训练 集 和 测试 集 ， 那 么 请 把 下 面 的 代码 加 入 代码 清单 10-2 中 : 


# 在 删除 乘客 ID 栏 之 前 请 保存 乘客 的 id 

ids = data df['PassengerId'] .values 

# 移 除非 数字 类 型 的 栏 

data df = data df.drop(['Name', 'Ticket', 'Cabin', 'PassengerId'], axis=1) 


# 将 原始 数据 分 为 训练 集 和 测试 集 

index = np.array (range (len (idqs) ) ) 
random. shuffle (index) 

train df, test df = data df.loc[index[:800]], data df.loc[index[800:]] 
train ids, test ids = ids[index[:800]], ids[index[800:] 


这 次 泰坦 尼克 号 乘客 的 幸存 情况 总 共 包 含 891 条 数据 ， 我 们 使 用 random.shuffle 函 数 将 原始 的 序列 打 乱 ， 并 且 将 其 中 随机 的 800 条 作为 训练 集 ，91 条 数据 作为 测试 集 。 在 进行 了 这 么 多 准备 工作 之 


后 ， 终 于 到 训练 算法 的 步骤 了 : 

# 训练 算法 

Print ('Traininghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/...') 

forest = RandomForestClassifier (n estimators=100) 

forest = forest.fit (train df.values[0::, 1::], train df.Survived.values) 

# 进行 预测 

print ('Predictinghttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/...') 

output = forest.predict (test df.values[0::, 1::]).astype (int) 

不 要 忘记 将 这 段 代 码 加 入 代码 清单 10-2 中 。 训 练 算法 很 简单 ， 只 需要 一 个 参数 即 可 ，n_estimators 的 值 表 示 需 要 使 用 多 少 棵 决策 树 构 建 随机 森林 。 然 后 就 可 以 训练 并 使 用 测试 集 进行 测试 了 。 

当然 ， 可 以 在 打印 output 的 结果 后 ， 与 实际 的 测试 集 分 类 进行 对 比 ， 从 而 考察 算法 的 正确 率 。 不 过 Scikit-learn 为 我 们 提供 了 方便 的 函数 来 测试 算法 的 好 坏 ， 现 在 将 下 列 代 码 继续 加 进 代 码 清单 10-2: 

# 用 最 简单 的 方式 评估 预测 效果 ， 分 值 越 大 越 好 

Score = forest.score (test_df.values[0::，1::]，test_df.Survived.values) 

Print ('score:', Score) 

其 运行 结果 如 下 : 

Score: 0.824175824176 

这 段 代码 会 为 我 们 计算 一 个 分 数 ， 数 值 越 大 越 好 四 。 虽 然 这 种 方式 很 简单 ， 可 是 却 掩盖 了 为 什么 好 ， 为 什么 不 好 ， 使 得 我 们 缺少 一 个 明确 的 防线 去 继续 优化 。 下 面 将 介绍 另外 几 种 常见 的 方式 ， 以 用 于 
帮助 我 们 分 析 问 题 的 所 在 。 


混淆 矩阵 ， 可 以 帮助 我 们 更 好 地 理解 分 类 中 错误 的 来 源 ， 参 考 下 面 的 代码 : 


# 混淆 矩阵 


from sklearn.metrics import confusion matrix 


print (confusion matrix(test df.Survived.values, output)) 


[[43 12] 
[ 4 32]] 


结果 是 一 个 和 矩阵， 下 面 这 个 表格 为 这 个 矩阵 的 横 轴 和 纵 轴 标 注 了 对 应 的 含义 。 


预测 结果 


死亡 (0) 斑 存 (1) 
真实 结果 死亡 (0) 43 12 
奈 存 (1) 4 32 


这 里 的 分 类 问题 是 一 个 二 分 类 问题 ， 所 以 存在 四 种 分 类 的 情况 ， 具 体 如 下 。 
“ 实际 上 死亡 的 乘客 被 正确 地 分 类 为 死亡 的 ， 称 为 真正 例 (TP) 。 
“ 实际 上 幸存 的 乘客 被 错误 地 分 类 为 死亡 的 ， 称 为 伪 正 例 (FP) 。 
“ 实际 上 幸存 的 乘客 被 正确 地 分 类 为 幸存 的 ， 称 为 真 反 例 〈(TN) 。 
“ 实际 上 死亡 的 乘客 被 错误 地 分 类 为 幸存 的 ， 称 为 伪 反 例 (FN) 。 


从 上 面 的 表格 中 可 以 发 现 ， 在 两 种 错误 的 分 类 中 ， 更 多 的 是 实际 上 死亡 的 乘客 被 错误 地 分 类 为 幸存 情况 。 


由 混淆 矩阵 簿 生出 了 正确 率 和 召回 率 两 个 评价 算法 优 劣 的 指标 。 其 中 正确 率 等 于 TP/(TP+FP)， 给 出 的 是 预测 为 正 例 的 样本 中 真正 的 正 例 所 占 的 比例 。 而 召回 率 等 于 TP/(TP+FN)， 代 表 预 测 为 正 例 的 真 
实 正 例 占 所 有 真实 正 例 的 比例 。 


读者 很 容易 就 能 看 出 ， 正 确 率 和 召回 率 很 难 同时 保证 很 高 的 值 。 如 果 将 任何 样本 都 判断 为 正 例 ， 那 么 召回 率 100%， 而 此 时 正确 率 则 很 低 。 构 建 一 个 两 者 的 值 同时 都 很 高 的 分 类 器 是 很 有 挑战 的 。Scikit- 
learn 也 为 我 们 提供 了 方便 地 计算 正确 率 和 召回 率 的 函数 ， 参 考 下 面 的 代码 : 


# 正确 率 和 召回 率 

from sklearn.metrics import precision score, recall score 

print ('precision:', precision score (test df.Survived.values, output)) 
print('recall', recall score(test df.Survived.values, output)) 


其 运行 之 后 的 结果 为 : 


Precision: 0.727272727273 
recall 0.888888888889 


这 可 能 看 起 来 还 算 不 错 。 


另外 一 个 用 于 衡量 分 类 器 效果 的 工具 就 是 ROC (receiver operating characteristic) 曲线 ， 本 例 的 ROC 曲 线 ， 如 图 10-9 所 示 。 
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图 10-9 ROC 曲 线 


图 10-9 给 出 了 两 条 曲线 ， 一 条 实 线 一 条 虚线 ， 图 中 的 横 轴 是 假 阳 率 (FP/(FP+TN)) ， 纵 轴 是 真 阳 率 (TP/(TP+FN)) 。ROC 曲 线 给 出 的 是 当 阔 值 变 化 时 假 阳 率 和 真 阳 率 的 变化 情况 。 理 想 的 情况 下 完美 


的 分 类 器 ， 曲 线 应 当 非 常 接近 左上 角 ， 这 就 意味 着 分 类 器 在 假 阳 率 很 低 的 情况 下 同时 获得 了 很 高 的 真 阳 率 。 不 过 ROC 曲 线 的 含义 比较 难以 理解 ， 因 此 通常 使 用 AUC (曲线 下 面积 ) 来 衡量 分 类 器 的 性 能 。 在 
10-9 中 ， 虚 线 代表 随机 猜测 时 的 结果 ， 此 时 AUC 为 0.5。 而 完美 的 分 类 器 的 AUC 是 1， 通 常 ， 真 正 的 AUC 的 值 是 在 0.5 到 1 之 间 ， 为 了 计算 AUC， 以 及 绘制 ROC 曲 线 ， 请 将 下 列 代码 添加 到 代码 清单 10-2 


中 : 


[ 


# ROC 曲 线 及 AUC 
from sklearn.metrics import roc curve, auc 
import matplotlib.pyplot as plt 


fpr, tpr, _ = roc curve(test df.Survived.values, output) 
roc auc = auc (fpr, tpr) 

print ('auc:', roc auc) 

plt.figure() 


plt.plot (fpr, tpr, label='ROC curve (area = %0.2f)' % roc auc) 
plt.plot ([0, 1], [0, 1], 'k--') 

plt.xlim([0.0, 1.0]) 

plt.ylim([0.0, 1.05]) 

Pplt.xlabel ('False Positive Rate') 

plt.ylabel('True Positive Rate') 

plt.legend (loc="lower right") 

plt.show() 


其 输出 的 结果 为 : 


auc: 0.879050925926 


这 样 来 看 我 们 的 结果 还 不 错 。 


[ 有 的 时 候 也 可 以 用 均值 进行 补 全 。 
思 ] 由 于 随机 的 成 分 ， 你 得 到 的 结果 可 能 和 我 的 不 同 ， 甚 至 多 次 运行 同一 个 程序 结果 都 会 不 同 。 


第 11 章 “利用 Python 进行 图 数据 分 析 


在 前 面 的 章节 中 我 们 已 经 学 过 了 各 种 常规 的 数据 分 析 方 法 ， 甚 至 还 探索 了 简单 的 机 器 学 习 算 法 KNN。 本 章 将 会 对 一 种 特殊 的 数据 结构 一 图 一 的 分 析 进 行 学 习 。 “图 ”数据 结构 是 一 种 经 典 的 计算 机 数据 
结构 ， 除 此 之 外 ， 搜 索引 擎 也 是 假设 互联 网 上 的 网 站 组 成 了 一 个 互相 连通 的 图 ， 并 通过 相应 的 算法 来 对 搜索 结构 进行 排序 的 。 最 近 一 些 年 里 ， 社 交 网络 的 兴起 也 推动 了 图 数据 分 析 的 发 展 ， 因 为 在 社交 网 络 
中 ,好友 、 粉 丝 恰好 构成 了 一 张 图 ， 也 称 为 网 络 。 在 社交 网 络 这 个 大 图 中 可 以 发 现 特定 的 群体 ( 子 图 发 现 ) ， 或 者 发 现 影响 力 中 心 的 人 物 ， 发 现 热点 事件 ， 甚 至 预测 流行 病 ， 科 学 家 对 此 进行 了 诸多 的 尝 
试 。 本 章 将 介绍 如 何 使 用 Python 进 行 图 数据 的 分 析 ， 为 了 完成 本 章 内 容 的 学 习 ， 需 要 安装 一 下 第 三 方 库 ， 安 装 命令 如 下 : 


pip install networkx 


11.1 图 基础 


下 面 让 我 们 先 来 看 一 个 典型 的 图 的 可 视 化 形式 ， 如 图 11-1 所 示 。 


图 11-1 是 由 节点 和 边 组 成 的 图 ， 如 果 边 没有 方向 则 称 为 无 向 图 。 如 果 把 图 11-1 的 节点 看 作 是 城市 ， 而 边 看 作 是 连接 城市 间 的 公路 ， 那么 计算 从 任意 一 座 城市 到 达 另 外 一 座 城市 的 最 短 行走 路 径 就 是 一 个 
典型 的 图 问题 。 如 果 图 11-1 的 边 不 是 双向 的 而 是 单 向 的 ， 那 么 这 个 图 又 可 以 被 称 作 有 向 图 ， 在 有 向 图 中 ， 如 果 有 一 条 边 从 A 节 点 指向 B 节 点 ， 则 说 A 为 源 节点 或 父 节点 ，B 则 为 目标 节点 或 子 节点 


图 11-1 一 个 简单 的 图 


关于 图 有 很 多 有 趣 的 问题 ， 在 数学 上 ， 首 次 记载 图 的 使 用 是 1735 年 瑞士 数学 家 欧 拉 用 图 来 解决 柯 尼斯 堡 七 桥 问题 []。 解 决 这 种 问题 的 思想 被 称 为 “图 论 ”。 当 然 讨论 图 
将 会 从 使 用 Python 解决 实际 的 图 问题 来 入 手 ， 以 学 习 图 挖掘 这 样 一 个 热门 的 数据 挖掘 分 类 。 一 开始 我 们 会 学 习 如 何 使 用 NetworkX 及 一 些 基本 的 图 的 概念 ， 之 后 会 使 


论 并 不 是 本 章 的 主要 内 容 ， 下 面 
公开 的 数据 源 进行 一 些 图 分 析 。 


[1 https://zh.wikipedia.org/wiki/ 柯 尼斯 堡 七 桥 问题 。 


11.2 NetworkX 入 门 


11.2.1 基本 操作 


想 要 用 最 快 的 方式 创建 一 个 图 ， 可 以 参考 下 面 的 代码 : 


# ! /usr/bin/python 
# -#~ ooding: utf-8 一 一 


from __ future __ import print function 
import networkx as nx 
import matplotlib.pyplot as plt 


G = nx.Graph () 


for @ in [(l, 2), (lr 3), (lr 人 2 3 5 Ye 07 YY: 
G.add edge (*e) 


nx.draw (G) 
plt.show() 


上 面 的 代码 一 开始 就 导入 了 networkx 模 块 ， 并 且 设 定 其 别名 为 nx， 以 方便 后 续 的 使 用 ，nx 模 块 中 的 Graph() 会 创建 一 个 空白 的 图 。 图 
因为 要 描述 一 条 边 必须 要 提供 边 连接 的 两 个 节点 。 然 后 在 接 下 来 的 代码 中 添加 了 7 条 边 ， 每 条 边 都 是 由 两 个 节点 的 编号 组 成 ， 这 里 使 
会 得 到 图 11-1 所 示 的 结果 。 


局 ， 


的 是 add_edge() 方 法 添加 到 图 中 。 最 后 使 用 pyplot 将 图 可 视 化 出 来 就 


想 要 查看 刚刚 创建 的 


网 


的 一 些 属性 ， 可 以 使 用 下 列 方法 : 


Print (G.number of nodes () ) 
print (G.number of _ edges () ) 
print (G.nodes () ) 

Print (G.edges () ) 

Print (G.neighbors (1)) 


其 中 number_ of_node() 方 法 可 以 统计 该 图 中 所 包含 节点 的 数量 ， 类 似 的 number_of_ edges() 方 法 则 可 以 统计 该 图 中 所 包含 的 边 的 数量 ，nodes() 方 法 会 返回 所 有 的 节点 ，edges() 会 返回 所 有 的 边 。 最 
有 趣 的 是 ，neighbors() 方 法 会 返回 与 某 一 个 节点 之 间 有 边 连 接 的 所 有 其 他 节点 ， 比 如 这 里 要 返回 与 1 有 边 连 接 的 节点 ， 可 以 预见 ， 结 果 将 会 是 [2,3,4] ， 现 在 就 来 看 一 下 上 面 函数 运行 的 结果 : 


3, 4, 5, 7] 
(1, 3), (1 4), (2, 3), (3, 4), (5, 4), (7, 4)] 
3, 4] 


获取 邻居 在 图 分 析 中 是 非常 常用 的 功能 ， 比 如 在 社交 网 络 分 析 中 ， 要 想 获取 某 一 个 人 的 所 有 粉丝 ， 或 者 返回 来 查询 一 个 人 所 关注 的 人 ， 等 等 。 


如 果 想 从 一 个 图 中 移 除 某 个 节点 或 某 条 边 ， 那 么 可 以 使 用 下 面 的 方法 : 


G.remove_node (7) 
print (G.edges () ) 
G.remove_eqge (1，3) 
Print (G.edges () ) 


需要 注意 的 是 ， 当 移 除 某 一 个 节点 时 ， 连 接 到 这 一 节点 的 所 有 边 同时 也 会 被 移 除 ， 而 移 除 边 并 不 会 影响 节点 ， 上 面 的 函数 运行 之 后 的 结果 为 : 


有 一 点 需要 注意 的 是 ， 虽 然 我 们 一 直 是 使 用 数字 编号 作为 图 的 节点 ， 字 符 串 也 可 以 作为 节点 ， 但 实际 上 ， 只 要 是 散 列 值 都 可 以 作为 图 的 节点 ， 这 提供 了 很 多 便利 ， 接 下 来 将 要 为 图 中 的 元 素 添加 额外 的 
属性 。 


11.2 NetworkX 入 门 


11.2.1 基本 操作 


想 要 用 最 快 的 方式 创建 一 个 图 ， 可 以 参考 下 面 的 代码 : 


# ! /usr/bin/python 
coding: utf-8 ~*— 


from _ future _ import print function 
import networkx as nx 
import matplotlib.pyplot as plt 


G = nx.Graph () 
for e in [ll; 2), (ly 3 ty 4) (2 全 有， 全 和 
G.add edge (*e) 


nx.draw (G) 
plt.show() 


出 


上 面 的 代码 一 开始 就 导入 了 networkx 模 块 ， 并 且 设 定 其 别名 为 nx， 以 方便 后 续 的 使 用 ，nx 模 块 中 的 Graph() 会 创建 一 个 空白 的 图 。 图 是 由 节点 和 边 组 成 的 ， 实 际 上 我 们 只 要 添加 边 就 能 自动 添加 节点 ， 
因为 要 描述 一 条 边 必须 要 提供 边 连 接 的 两 个 节点 。 然 后 在 接 下 来 的 代码 中 添加 了 7 条 边 ， 每 条 边 都 是 由 两 个 节点 的 编号 组 成 ， 这 里 使 用 的 是 add_edge() 方 法 添加 到 图 中 。 最 后 使 用 pyplot 将 图 可 视 化 出 来 就 
会 得 到 图 11-1 所 示 的 结果 。 


想 要 查看 刚刚 创建 的 图 的 一 些 属性 ， 可 以 使 用 下 列 方法 : 


print (G. number of edges () 
print (G.nodes()) 

print (G.edges ()) 

Print (G.neighbors (1)) 


Print (G.number of nodes()) 
) 


其 中 number_of_node() 方 法 可 以 统计 该 图 中 所 包含 节点 的 数量 ， 类 似 的 number_of_edges0) 方 法 则 可 以 统计 该 图 中 所 包含 的 边 的 数量 ，nodes() 方 法 会 返回 所 有 的 节点 ，edges0 会 返回 所 有 的 边 。 最 
有 趣 的 是 ，neighbors() 方 法 会 返回 与 某 一 个 节点 之 间 有 边 连 接 的 所 有 其 他 节点 ， 比 如 这 里 要 返回 与 1 有 边 连 接 的 节点 ， 可 以 预见 ， 结 果 将 会 是 [2,3,4] ， 现 在 就 来 看 一 下 上 面 函数 运行 的 结果 : 


sy | 
[| 


6 
7 
[ 
[ 
[2, 3, 4] 


获取 邻居 在 图 分 析 中 是 非常 常用 的 功能 ， 比 如 在 社交 网 络 分 析 中 ， 要 想 获取 某 一 个 人 的 所 有 粉丝 ， 或 者 返回 来 查询 一 个 人 所 关注 的 人 ， 等 等 。 


如 果 想 从 一 个 图 中 移 除 某 个 节点 或 某 条 边 ， 那 么 可 以 使 用 下 面 的 方法 : 


G.remove node (7) 
print (G.edges () ) 
G.remove_eqge (1， 
Print (G.edges () ) 


需要 注意 的 是 ， 当 移 除 某 一 个 节点 时 ， 连 接 到 这 一 节点 的 所 有 边 同时 也 会 被 移 除 ， 而 移 除 边 并 不 会 影响 节点 ， 上 面 的 函数 运行 之 后 的 结果 为 : 


有 一 点 需要 注意 的 是 ， 虽 然 我 们 一 直 是 使 用 数字 编号 作为 图 的 节点 ， 字 符 串 也 可 以 作为 节点 ， 但 实际 上 ， 只 要 是 散 列 值 都 可 以 作为 图 的 节点 ， 这 提供 了 很 多 便利 ， 接 下 来 将 要 为 图 中 的 元 素 添加 额外 的 
属性 。 


11.2.2 ”为 图 中 的 元 素 添加 属性 


为 图 中 的 每 一 个 元 素 都 是 一 个 类 似 Python 字 典 的 结构 ， 所 以 可 以 使 用 熟悉 的 下 标 方式 为 图 中 的 元 素 添加 属性 ， 比 如 : 


[ 


中 的 各 种 元 素 ， 简 单 来 说 包括 图 本 身 、 节 点 及 边 。 


G.graph['day'] = 'Monday' 
print (G.graph) 
G.node[1] ['name'] = "jilu' 


print (G.nodes (data=True) ) 


上 面 的 代码 是 为 图 的 graph 属 性 中 增加 day 这 个 属性 ， 并 将 Monday 赋 值 给 qay 属 性 ， 而 且 还 给 节点 1 增加 了 名 为 name 的 属性 ， 上 面 函数 的 输出 结果 为 : 


[ 


{'day': 'Monday' 
[Ol; {name’:s ja (2 {ys (3 {DD Cai {HD. (Se {1 (C7: £77] 


当然 除了 在 创建 完 图 之 后 再 修改 属性 这 一 方法 之 外 ， 还 可 以 在 创建 时 就 为 图 中 的 元 素 赋予 某 些 属性 ， 比 如 : 


G.add edge (7，8，weight=4.7) 

G.add edges from([(3, 8), (4, 5)], color='red') 
G.add edges from([(9, 1, {'color': 'blue'}), (8, 3, {'weight': 8}) 
G[1] [2] ['weight'] = 4.0 

G.edge[1] [2] ['weight'] = 4 

print (G.edges (data=True)) 


其 中 ,在 add_edge() 方 法 中 的 第 一 个 和 第 二 个 位 置 参数 之 后 可 以 增加 任意 的 关键 字 参 数 ， 这 些 参数 会 自动 作为 边 的 属性 被 绑 定 到 边 上 ， 比 如 上 面 的 第 一 行 函数 ， 则 是 建立 一 条 连接 节点 7 到 节点 8 的 边 ， 
并 且 这 条 边 包含 一 个 weight 的 属性 ， 其 值 为 4.7。 第 二 行使 用 了 add_edges from() 函 数 ， 这 个 函数 可 以 从 列表 中 批量 地 添加 边 ， 并 且 关键 字 参 数 同样 也 可 以 批量 地 为 这 些 边 添加 属性 ， 比 如 这 里 的 color 属 
性 ， 边 (3,8) 和 (4,5) 均 包含 color 为 red 的 属性 。 想 要 为 每 一 个 新 添加 的 边 都 赋予 特殊 的 属性 ， 则 可 以 像 上 面 程序 中 的 第 三 行 一 样 ， 在 每 一 个 边 的 元 组 中 增加 一 个 属性 字典 。 最 后 与 节点 一 样 ， 也 可 以 使 用 下 标 
对 其 属性 进行 修改 。 要 想 从 图 中 获取 一 条 边 则 需要 两 个 下 标 ， 上 面 程序 中 第 4 行 和 第 5 行 的 操作 结果 是 完全 相同 的 。 下 面 让 我 们 看 一 下 最 终 的 结果 : 


(1, 2, {'weight': 4}), (1, 3, {}), (1, 4, {}), (2, 3, {}), (3, 8, {'color': 'red'}), (3, 4, {}), (4, 5, {'color': 'red'}), (5, 4, {}), (7, 8, {'weight': 4.7}), (7, 4, {}), (8, 


可 以 看 到 设置 过 边 属性 的 边 都 获得 了 其 应 有 的 属性 值 ， 值 得 注意 的 是 ，weight 这 个 属性 并 不 是 随便 起 的 名 字 ， 在 权重 图 中 这 些 属性 会 作为 某 些 图 算 的 参数 ， 所 以 请 一 定 确保 weight 的 值 是 数值 类 型 的 
值 。 


11.2.3 ”有 向 图 及 节点 的 度数 


网 


如 前 文 所 说 ， 之 前 研究 的 图 一 直 是 无 向 图 ， 即 连接 两 个 节点 的 边 并 没有 方向 ， 与 之 对 应 的 是 有 向 图 ， 有 的 节点 称 为 父 节 点 而 有 的 节点 则 称 为 子 节点 ， 我 们 可 以 使 用 DiGraph() 创 建 有 向 图 ， 比 如 : 


DG = nx.DiGraph () 
DG.add weighted edges from([(1, 2, 0.5), (3, 1, 0.75)]) 


那么 有 向 图 和 无 向 图 的 区 别 是 什么 呢 ? 这 就 需要 提 及 节点 的 度 了 ， 所 谓 节点 的 度 是 代表 有 多 少 个 边 连接 该 节点 ， 比 如 下 面 的 函数 : 


Print (DG.degree (1) ) 
Print (DG.out_degree (1)) 
Print (DG.in degree (1)) 


FF IN 


网 
于 


当 我 们 对 节点 1 使 用 degree() 函 数 时 ， 其 结果 为 2， 确 实 ， 这 个 简单 的 DG 图 连接 节点 有 两 条 边 与 之 相连 ， 但 是 当 对 节点 1 使 用 out_degree( 函 数 和 in_degree() 函 数 时 ， 结 果 就 变 成 1 了， 因为 在 有 向 
边 是 有 方向 的 ， 所 以 当 统 计 某 个 节点 的 “出 度 ” 时 ， 即 为 统计 与 该 节点 连接 的 边 中 ， 该 节点 作为 父 节点 的 边 的 数量 。 而 “入 度 ” 则 正好 相反 ， 是 与 该 节点 连接 的 变种 节点 作为 子 节点 的 边 的 数量 。 有 向 
一 个 很 重要 的 概念 ， 比 如 在 微 博 的 社交 关系 中 ， 某 个 大 V 会 被 很 多 人 关注 ， 而 他 自己 则 只 会 关注 其 感 兴趣 的 用 户 ， 如 果 将 微 博 中 所 有 的 关注 关系 描绘 成 一 张 有 向 图 ， 那 么 大 V 的 入 度 会 远 远大 于 出 度 。 


网 
并 


11.2.4 ”构建 图 及 图 的 操作 


11.2.3 节 是 通过 add_edges() 的 函数 来 手工 创建 图 的 ， 这 未 免 太 过 烦琐 了 ， 除 了 这 种 方法 之 外 ， 还 有 其 他 的 方法 创建 图 。 其 中 最 常见 的 就 是 通过 文件 来 创建 了 ，NetworkX 支 持 很 多 种 图 的 文本 格式 , 包 
括 边 列 表 、 邻 接 列表 、GML、GraphML、pickle、LEDA 等 ， 这 里 的 格式 有 些 是 很 直观 的 ， 比 如 边 列表 或 邻接 列表 ， 有 一 些 是 其 他 标准 所 规定 的 图 的 格式 ， 读 者 现在 不 用 关心 这 些 格式 都 是 怎么 构成 的 ， 就 
简单 地 将 它们 认 作 是 某 种 表示 图 的 方法 就 好 了 ， 就 像 关于 图 片 格式 ， 我 们 并 不 需要 关心 gpej、jpg、png 之 间 有 什么 区 别 一 样 。 下 面 仅 以 边 节点 为 例 讲解 如 何 保存 和 读 取 图 的 边 列表 ， 更 多 格式 的 保存 和 读 取 
请 参考 NetworkX 的 文档 站: 


J 


import networkx as nx 

G = nx.Graph() 

for & in [ll; 2 (ly 3 (tls 和 人 3)s (37 4 全 Dy Oi DY: 
G.add edge (*e) 

nx.write edgelist (G, "/Users/jilu/Downloads/graph edges") 

G1 = nx.read edgelist ("/Users/jilu/Downloads/graph edges") 

print (G1 .edges ()) 


上 面 的 程序 会 构建 一 个 无 向 图 6G， 并 且 使 用 write_edgelist() 方 法 将 : 
到 其 格式 类 似 如 下 形式 : 


保存 到 graph_edges 文 件 中 ， 之 后 又 使 用 read_edgelist() 方 法 将 该 图 从 文件 中 读 取 进来 ， 当 我 们 打开 文件 graph_edges 时 ， 可 以 看 


mw FF 
心心 心 wmwN 


其 中 第 一 列 和 第 二 列 很 明显 代表 的 是 图 中 的 边 ， 而 第 三 列 则 是 边 的 属性 字典 ， 由 于 这 一 次 在 创建 图 时 并 没有 给 边 附加 属性 ， 所 以 所 有 的 边 属性 字典 均 为 空 。 


针对 图 的 结构 还 可 以 进行 一 些 划分 和 合并 的 操作 ， 参 考 下 面 的 代码 : 


print (G) 

SG1 = nx.subgraph (6G, [1, 2, 3]) 
SG2 = nx.subgraph(G, [4, 5, 7]) 
print (SG1 .edges () ) 

Print (SG2 .edges () ) 

print (nx.union(SG1，SG2) .edges () ) 


这 里 使 用 了 subgraph( 方 法 ， 其 中 第 一 个 参数 是 原来 的 图 ， 第 二 个 参数 是 节点 的 列表 ， 该 函数 会 将 包含 节点 列表 中 的 节点 及 连接 这 些 节点 的 边 单独 划分 出 来 ， 它 们 称 为 一 个 子 图 ， 在 上 面 的 程序 中 创建 
了 两 个 子 图 ， 然 后 使 用 union() 函 数 将 两 个 子 图 合并 成 了 一 个 新 的 图 。 上 面 程序 运行 的 结果 如 下 : 


[(u'1', 0'3), (ul, 0'2), (ul1', nu'4), (3 u'2), (3 u'4), (u'5', 0'4'), (u'4', 0'7')] 
[(1, 2), (1, 3), (2, 3)] 

[(4, 5), (4, 7)] 

[(1, 2), (1, 3), (2, 3), (4, 5), (4, 7)] 


可 以 看 到 结果 与 我 们 所 预料 的 一 样 。 除 了 上 述 两 个 基本 的 与 图 操作 相关 的 函数 之 外 ， 还 有 更 多 的 其 他 的 操作 图 数据 的 函数 ， 比 如 可 以 求 补 图 的 complement( 函 数 ， 可 以 将 有 向 图 转化 成 无 向 图 的 
convert to_undirected() 函 数 等 ， 更 多 的 操作 可 以 查看 NetworkX 的 文档 各 ， 在 本 节 中 学 习 这 些 操作 就 已 经 足够 了 。 


[1] http://networkx.readthedocs.io/en/networkx-1.11/reference/readwrite.html 


[2] http://networkx.readthedocs.io/en/networkx-1.11/reference/index.html 


11.3 ”使 用 NetworkX 进 行 图 分 析 


本 节 将 会 使 用 几 个 具体 的 例子 来 探索 图 分 析 究 竟 能 做 些 什么 ， 我 们 会 先 对 图 数据 进行 基础 的 统计 ， 然 后 使 用 对 应 的 算法 进行 分 析 。 


11.3.1 利用 联通 子 图 发 现 社区 


下 面 的 第 一 个 例子 将 会 使 用 一 个 “ 哈 特 福 德 的 药物 研究 数据 ”， 数 据 很 简单 ， 是 图 的 边 列表 形式 ， 每 个 节点 均 使 用 编号 表示 ， 代 码 如 下 : 


# source target 


oo omcmcwNNP 
户 
人 
NO 


如 # 号 注释 之 后 的 列 名 所 示 ， 第 一 列 是 图 的 源 节 点 ， 第 二 列 是 目标 节点 ， 所 以 这 是 一 份 有 向 图 的 数据 (这 里 先 不 用 关心 这 份 数据 实际 的 研究 意义 ) 。 现 在 让 我 们 从 文件 中 读 取 这 个 图 ， 并 且 统 计 其 的 基础 
属性 ， 代 码 如 下 : 


# ! /usr/bin/python 
# -+ coding: utf-8 ~*~— 


from __ future import print function 
from networkx import read edgelist 


G = read edgelist ('/Users/jilu/Downloads/hartford drug.edgelist') 
print (G.number of nodes () ) 
Print (G.number of edges () ) 


import matplotlib.pyplot as plt 
nx.draw (G) 
plt.show() 


其 输出 的 结果 为 : 


212 
284 


所 以 这 份 图 一 共 包 含 212 个 节点 及 284 条 边 ， 这 个 图 并 不 是 很 大 ， 代 码 段 的 最 后 三 行 代码 会 在 屏幕 中 绘制 出 这 个 图 ， 现 在 就 让 我 们 来 看 看 它 的 样子 ， 如 图 11-2 所 示 。 


图 11-2 一 个 稍微 复杂 一 点 的 图 


从 图 11-2 中 可 以 看 到 有 些 节 点 是 互相 连接 的 ， 而 另外 的 一 些 则 没有 。 如 果 这 是 一 个 社区 中 的 人 ， 两 个 人 中 间 有 边 就 代表 他 们 是 好 友 关 系 ， 那么 我 们 如 何 发 现 这 些 人 自发 组 成 的 不 同 的 小 组 呢 ? 这 里 就 会 
用 到 联通 子 图 算法 ， 该 算法 会 将 图 中 数 个 完全 没有 边 的 节点 集团 分 开 ， 形 成 数 个 子 图 。 这 样 就 能 够 发 现 这 些 自发 形成 的 社区 [0]， 代 码 如 下 : 


from networkx.algorithms import number connected components, connected components 
print (number connected components (G) ) 
for subG in connected components (G) : 

print (subG) 


在 上 面 的 代码 中 number_ connected_ components 方 法 会 计算 原来 的 图 可 以 切 分 为 几 个 联通 子 图 ， 在 本 例 中 这 个 值 是 9， 读 者 不 妨 自 己 运行 一 下 。 上 面 的 代码 实际 的 运行 结果 如 下 : 


总 
set ([u'217', u'39', u'223']) 
[4'214', u'215', u'213', u'210', u'211', http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/..., u'70', u'96', u'78', rt 
[这 
上 
set ([u'186', u'127']) 
1164', u'59! 
a sD 
set ([u'181', u'178']) 
set ([u'151', u'145', u'238']) 


上 面 的 结果 是 九 组 联通 子 图 的 节点 编号 ， 事 实 上 ， 还 可 以 获得 这 些 联通 子 图 的 图 结构 ， 示 例 代 码 如 下 : 


from networkx.algorithms import connected component subgraphs 


for i, subG in enumerate (connected component subgraphs (G) ) : 
print('G%s' % i, subG.number of nodes(), subG.number of edges()) 
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我 们 查看 了 所 有 子 图 的 边 和 节点 的 个 数 ， 发 现在 G1 这 个 子 图 中 包含 了 绝 大 多 数 G 中 的 点 和 边 。 


中 ”在 标准 的 联通 子 图 的 算法 中 ， 不 同 的 子 图 是 完全 没有 边 相 连 的 ， 但 是 有 些 情况 并 不 是 这 样 的 ， 根 据 经 典 的 “六 度 分 离 理论 ”在 实际 的 社会 中 人 与 人 总 是 会 有 连接 ， 并 且 一 般 不 会 超过 6 名 好 友 。 为 了 解决 
这 个 问题 有 的 算法 会 指定 如 果 两 个 子 图 的 连接 数 少 于 某 个 值 则 切断 这 些 连 接 (人 割 边 / 割 点 ) 。 


11.3.2 ”通过 三 角 计算 强化 社区 发 现 


通过 上 面 的 例子 我 们 发 现 了 几 个 不 同 的 子 图 ， 而 且 发 现 的 是 拥有 数据 最 多 的 那 一 个 ， 但 是 如 何 衡量 这 个 子 图 中 人 们 联系 的 紧密 度 呢 ? 在 这 个 小 的 圈子 中 人 们 可 以 顺 次 手 拉 着 手 围 成 一 个 圈 ， 这 样 可 以 算 
作 是 一 个 联通 子 图 ， 但 是 这 样 一 来 ， 人 与 人 之 间 的 关系 是 很 弱 的 。 当 然 也 可 以 每 个 人 两 两 之 间 都 是 好 友 ， 这 样 就 是 很 强 关系 的 圈子 了 ， 如 何 衡量 这 个 圈子 的 紧密 程度 将 是 本 节 讨 论 的 重点 。 这 里 要 引入 两 个 


盏 


新 的 概念 ， 三 角 计 数 (triangles counts) 和 集束 系数 (clustering coefficient) 。 


“ 三 角 计 数 : 一 个 图 中 有 3 个 节点 互相 之 间 有 边 的 情况 的 个 数 ， 这 个 图 中 的 三 角 越 多 ， 就 说 明 图 中 节点 连接 得 越 紧密 。 


“ 集束 系数 : 某 一 个 图 中 的 点 组 成 的 三 角 数 量 与 这 个 节点 的 度 〈degree) 的 比值 ， 这 个 系数 越 大 ， 则 说 明 这 个 节点 与 图 中 其 他 节点 的 连接 训 


在 实际 的 统计 中 ， 往 往 会 使 用 另外 两 个 值 来 辅助 衡量 ， 即 图 的 transitivity 和 平均 集束 系数 ， 先 让 我 们 看 完 代码 再 解释 原因 


from networkx.algorithms import triangles, transitivity, average clustering 


print (triangles (G) ) 
print (transitivity(G)) 
print (average clustering (G) ) 


就 越 紧密 。 


上 面 程序 的 输出 结果 为 : 


2 


0.11811023622 
0.12524435732 


9 


可 以 看 到 图 的 triangles 是 针对 每 个 节点 来 计算 三 角 数 量 的 ， 但 是 这 样 统计 的 结果 很 不 直观 ， 而 transitivity 及 average_clustering 则 是 把 结果 汇总 起 来 使 用 一 个 小 数 来 表示 | 


两 个 数值 都 是 值 越 大 ， 节 点 联系 就 越 紧密 。 


11.3.3 ”利用 PageRank 发 现 影响 力 中 心 


PageRank 是 Google 最 早 赖 以 成 名 的 重要 算法 ， 它 提供 了 网 页 搜索 排名 的 依据 。 如 果 某 一 个 网 站 链接 的 其 他 网 数量 更 多 ， 并 且 质量 更 好 ， 
考虑 了 链接 某 个 网 站 的 数量 ， 而 且 同时 也 考虑 了 这 些 链接 的 质量 (连接 该 网 站 的 这 些 网 站 本 身 排名 如 何 ) ， 所 以 在 当时 该 算法 成 为 Google 的 3 


[ 


中 节点 联系 的 紧密 程度 ， 


际 


那么 就 应 当 把 这 个 网 站 的 搜索 排名 提前 。PageRank 算 法 不 仅 


的 人 ， 示 例 代 码 如 下 : 


要 竞争 力 。 本 节 将 会 使 用 该 算法 找 出 社交 网 络 中 链接 能 力 最 强 


from collections import Counter 
from networkx.algorithms import pagerank 


pr = pagerank (G) 
for p in Counter (pr) .most_common () : 


Print (P) 

上 面 程序 运行 的 结果 为 : 

u'50', 0.019533914669049246) 

u'30', 0.014834130799026785) 

u'64', 0.014057681341854969) 

u'38', 0.012932935872697173) 

u'65', 0.012125389485566249) 

u'86', 0.010651423094615524) 
0.009913484030903835) 


u'113', 0.009710898625782968) 

u'96', 0.009264814416792697) 

u'75', 0.009194145177209935) 

u'4', 0.009150049946119738) 

u'58', 0.008732748126487125) 

u'171', 0.008150784698187865) 

u'22', 0.008073699512742259) 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
(u'105', 0.0019113717920261777) 本 
(u'40', 0.0018500614318864845) 

(u'185', 0.0018144884008625716) 

(u'47', 0.0018144884008625716) 


结果 很 长 ， 这 里 去 掉 了 开头 的 一 部 分 及 未 尾 的 一 部 分 ， 并 且 开 头 的 部 分 稍微 多 一 些 ， 第 一 列 的 值 是 用 户 的 编号 ， 第 二 列 是 PageRank 的 值 ， 
易 就 能 找到 社区 中 的 影响 力 中 心 了 。 


第 12 章 ”大 数据 工具 入 门 


该 值 越 大 ， 说 明 该 用 户 链接 其 他 用 户 的 能 力 越 强 ， 这 样 很 容 


本 章 将 会 尝试 处 理 一 些 真正 的 “大 ”数据 ， 使 用 工业 界 常用 的 工具 处 理 一 些 比较 大 的 数据 集 ( 约 1GB， 这 是 一 个 比较 合适 的 学 习 大 数据 工 


的 数据 集 大 小 ， 既 可 单机 处 理 又 能 体验 大 数据 带 来 的 麻 


烦 ) ， 可 以 让 读者 大 致 了 解 一 下 数据 科学 家 们 的 日 常 工作 内 容 。 本 章 将 会 分 两 个 部 分 来 介绍 Hadoop 和 Spark 这 两 个 最 流行 的 大 数据 处 理 框架 。 


Hadoop 是 最 为 知名 的 大 数据 批 处 理 框架 ， 并 且 生 态 系统 中 提 


供 了 分 布 式 文件 存储 HDFS 及 分 布 式 系统 任务 调度 框架 Yarn， 以 及 最 重要 的 MapReduce 计 算 模型 的 实现 ， 还 提供 了 很 多 基于 SQL 的 工具 ， 可 以 以 非 编程 的 方式 实现 数据 清洗 及 数据 仓库 的 管理 ， 现 代 大 数据 


处 理 中 Hadoop 已 经 被 列 为 基础 设施 之 一 。Spark 是 近 些 年 来 新 兴 的 内 存 型 大 数据 处 理工 ， 


其 最 大 的 改进 是 分 布 式 内 存 文 件 系统 RDD， 它 会 将 全 部 数据 加 载 到 内 存 中 再 进行 计算 ， 这 极 大 地 提高 了 处 理 速 


度 ， 而 且 还 将 Hadoop 的 MapReduce 模 型 改进 为 DAG (有 向 无 环 图 ) 模型 ， 尤 其 适合 迭代 型 的 机 器 学 习 任务 ， 在 Spark 标 准 库 中 甚至 还 集成 了 Millib 及 ML 这 两 个 模块 来 进行 机 器 学 习 的 计算 。 除 此 之 


外 ，Spark 还 支持 流 式 处 理 ， 可 以 在 线 实时 地 处 理 数据 。 


本 章 将 要 介绍 的 两 个 框架 目前 还 无 法 在 Windows 上 运行 ， 所 以 读者 需要 一 台 Mac 或 Linux 的 电脑 ， 当 然 还 有 另外 一 种 方式 那 就 是 使 用 云 计 : 


， 具 体 的 方法 会 在 下 文 介绍 。 


12.1 Hadoop 


Hadoop 最 初 是 参考 谷歌 公司 公开 的 MapReduce 及 GFS (谷歌 分 布 式 文件 系统 ) 论文 而 设计 的 ， 可 以 将 一 个 计算 任务 分 为 数 个 可 以 并 行 计 算 的 子 任务 ， 横 跨 数 个 计算 节点 (多 台 服 务 器 ) ， 可 对 非常 巨 
大 的 数据 集 进行 计算 ， 可 以 处 理 PB[I1] 级 别 的 数据 。Hadoop 通 过 框架 的 形式 将 底层 的 数据 进行 分 布 式 存储 ， 然 后 分 布 式 计算 这 些 复杂 的 内 容 ， 将 其 抽象 成 数 个 API， 并 提供 了 容错 机 制 ， 使 得 复杂 的 分 布 式 
计算 任务 可 以 以 非常 简单 的 方式 进行 编写 。 由 于 其 具有 大 数据 处 理 的 能 力 ，Hadoop 在 几 年 之 内 将 会 迅速 普及 在 各 个 公司 中 。Hadoop 的 图 标 ， 如 图 12-1 所 示 。 


图 12-1 Hadoop 


读者 肯定 已 经 见 过 Hadoop 标 志 性 的 小 象 了 (如 图 12-1 所 示 ) ， 现 在 Hadoop 是 Apachef 的 顶级 项 目 。 除 了 原始 版 的 Hadoop 之 外 ， 还 有 一 些 公司 定制 的 版 本 ， 这 些 版 本 往往 增加 了 一 些 特殊 的 功能 ， 
通常 这 样 的 版 本 称 为 发 行 版 。Hadoop 由 于 有 超过 10 年 的 历史 ， 已 经 有 众多 的 发 行 版 了 ， 不 过 通常 来 说 我 们 会 优先 考虑 免费 的 版 本 。 目 前 主流 的 免费 Hadoop 发 行 版 有 两 个 ， 第 一 个 是 由 Cloudera 发 行 的 版 
本 (简称 CDH) ， 另 外 一 个 是 由 Hortonwords 发 行 的 版 本 (简称 HDP) 。 如 果 读 者 需要 一 些 Apache 版 本 Hadoop 中 未 提供 的 功能 ， 不 妨 去 看 一 下 这 两 个 发 行 版 。 


[1] 1PB=1024TB, 1TB=1024GB 
D] 一 个 开源 软件 组 织 ，http://apache.org/ 。 


12.1.1 Hadoop 的 计算 原理 


提 到 Hadoop 的 计算 原理 ， 就 不 得 不 提 MapReduce。 就 像 前 文 所 述 的 那样 ，Hadoop 最 早 是 在 谷歌 发 表 的 论文 中 提 到 的 。 简 单 总 结 MapReduce 的 内 涵 就 是 “任务 的 分 解 与 结果 的 汇总 ”， 其 中 
MapReduce 是 由 Map 和 Reduce 两 个 单词 组 成 的 。Map 代 表 任务 的 分 解 ， 即 将 一 个 巨大 的 任务 分 解 为 多 个 互 不 相关 的 平行 的 小 任务 。Reduce 代 表 汇 总 ， 代 表 将 Map 人 生成 的 多 个 任务 产生 的 结果 汇总 成 最 终 
的 结果 。 为 什么 要 分 为 两 个 阶段 呢 ? 因为 当 一 个 任务 被 分 为 子 任务 执行 时 ， 多 个 子 任务 之 间 的 关系 会 有 两 种 情况 : 一 是 ， 任 务 之 间 完 全 没有 关系 ， 可 以 并 行 执行 ， 比 如 将 文本 中 的 每 一 行 英文 以 空格 隔 开 ; 
二 是 ， 任 务 之 间 有 依赖 关系 ， 后 面 的 步骤 必须 依赖 前 面 步骤 的 结果 ， 比 如 统计 将 前 一 步骤 中 每 一 个 单词 出 现 的 次 数 全 部 加 起 来 ， 以 求 得 整个 文件 的 词 频 。 整 个 计算 过 程 ， 如 图 12-2 所 示 。 


在 图 12-2 中 ， 第 一 个 部 分 是 Map 操 作 ， 用 于 处 理 能 够 完全 并 行 的 计算 。 最 后 一 个 部 分 是 Reduce 操 作 ， 用 于 将 Map 的 结果 合并 成 一 个 结果 。 除 了 这 两 个 基本 的 步骤 之 外 ，Hadoop 框 架 为 了 效率 还 会 在 
两 个 步骤 之 间 加 入 Shuffle 的 步骤 ， 这 个 步骤 的 主要 目的 是 重新 分 布 Map 的 结果 ， 以 让 Reduce 的 输入 更 加 平均 ， 从 而 减少 数据 的 倾斜 ,提高 Reduce 的 效率 。 


Wm/ 
一 -一 一 一 一人 
Map() Shuffle Reducel() 


图 12-2 MapReduce 流 程 图 


Hadoop 的 另外 一 个 重要 组 成 部 分 就 是 HDFS (分 布 式 文件 系统 ) ， 由 于 Hadoop 所 具有 的 特性 ， 使 其 可 能 会 在 成 干 上 万 台 不 同 的 PC 服务 器 上 存储 数据 ， 虽 然 服 务 区 的 故障 率 不 高 ， 但 是 由 于 数量 众多 ， 


还 是 容易 发 生 一 些 我 们 不 愿意 看 到 的 故障 。HDFS 可 以 自动 地 帮 有 我 们 处 理 这 些 故障 ， 数 据 分 片 郊 余地 存储 在 不 同 的 机 器 上 ， 并 且 拥 有 两 份 备 份 ， 当 某 一 台 服 务 器 出 现 故障 时 ， 集 群 会 自动 调整 数据 的 分 布 。 而 


民 务 器 上 ， 我 们 也 仍然 可 以 像 操 作 本 地 文件 一 样 读 取 想 要 的 文件 ， 这 在 存 取 数量 巨大 的 文件 时 非常 方便 。 而 且 HDFS 还 被 设计 成 了 尽 可 
因为 通过 网 络 传输 巨 量 数据 的 代价 非常 高 ， 所 以 需要 通过 这 样 的 方式 来 提 
合 批 处 理 。HDFS 主 要 由 两 个 部 分 组 成 “名 字 节 点 


且 HDFS 还 可 以 对 外 提供 一 致 的 命名 空间 ， 即 使 数据 分 散在 数量 众多 的 

能 “移动 计算 而 不 是 移动 数据 ”， 如 果 要 对 某 些 数据 进行 处 理 ， 那 么 会 将 计算 任务 尽 可 能 地 分 配 到 真正 存储 这 些 数据 的 服务 器 上 。 
高 计算 的 效率 。 而 且 HDFS 还 提供 了 一 个 简单 的 数据 一 致 性 模型 ，HDFS 被 设计 成 针对 “一 次 写 入 多 次 读 取 ” 而 进行 的 优化 ， 这 样 的 文件 系统 更 加 适 
(NameNode) ”和 “数据 节点 (DataNodes) ”， 其 示意 图 ， 如 图 12-3 所 示 。 

到 12-3 中 体现 了 HDFS 中 的 几 个 部 分 : NameNode 是 文件 系统 的 管理 者 ， 主 要 负责 提供 统一 的 命名 空间 ， 


的 形式 存储 在 本 地 的 文件 系统 中 ， 并 且 周期 性 地 将 本 地 存储 数据 的 情况 发 送 给 NameNode。Client 就 是 需要 使 


以 及 管理 元 数据 (包括 命名 、 分 片 、 宛 余 等 ) ; DataNode 主 要 用 于 存储 数据 ， 其 将 数据 以 块 
数据 的 Hadoop 任 务 /程序 。HDFS 的 工作 流程 大 致 可 以 分 为 以 下 3 步 。 


1) Client 向 NameNode 发 起 读 写 的 请 求 。 
居 的 存储 路 径 。 


2) NameNode 根 据 Client 发 来 的 请 求 和 DataNode 的 信息 返回 给 Client 数 扫 


居 划 分 成 多 个 black， 然 后 将 数据 按照 NameNode 提 供 的 路 径 获 取 /发 送 到 对 应 的 DataNode。 


HDFS Architecture 


3) Client 将 数 


Metadata (Name, replicas, ...): 


/home/foo/data, 3, 
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图 12-3 ”HDFS 架 构 
从 Hadoop 2.X 开 始 ，Hadoop 已 经 使 用 Yarn 框 架 代替 了 原始 的 MapReduce 框 架 (如 图 12-4 所 示 ) 。Yarn 改 变 的 并 不 是 计算 的 流程 ， 而 是 整个 集群 资源 管理 的 方式 ， 使 得 整个 Hadoop 集 群 的 资源 利 


率 有 了 一 定 的 提高 。 因 此 推荐 使 用 拥有 Yarn 框 架 的 新 版 Hadoop。 


MapReduce Status 一 
Job Submission 


Node Status 
Resource Reauest 


图 12-4 Yarn 架构 


整个 Yarn 的 设计 思路 类 似 于 HDFS， 由 ResourceManager 统 一 管理 集群 中 的 所 有 计算 资源 ，ApplicationsManager 负 责 处理 Client 提 交 过 来 的 任务 。 在 每 一 个 计算 节点 上 还 有 一 个 NodeManager 负 责 
将 这 个 节点 的 计算 资源 划分 成 多 个 容器 ， 并 向 ResourceManager 报 告 节点 的 情况 。 这 样 的 结构 有 助 于 任务 的 容错 ， 当 某 个 节点 由 于 硬件 问题 而 导致 任务 失败 时 ， 其 对 应 的 任务 会 被 分 配 到 其 他 节点 重新 运 
行 ， 这 极 大 地 缓解 了 在 运行 长 时 间 任务 时 由 于 单 点 故障 所 导致 的 前 功 尽 弃 的 情况 ， 使 得 Hadoop 更 加 的 可 靠 和 高 效 。 另 外 Yarn 能 够 带 来 的 一 个 额外 的 好 处 就 是 其 对 其 他 计算 框架 的 支持 ， 因 为 它 只 负责 分 配 
集群 资源 ， 而 不 再 设计 具体 的 计算 框架 ， 除 了 MapReduce 之 外 ， 像 下 文 要 写 的 Spark、Storm 或 是 Impala 等 计算 框架 也 都 能 运行 在 Hadoop 之 上 ， 这 极 大 地 提高 了 Hadoop 的 扩展 性 ， 为 数据 科学 工作 者 提 
供 了 更 多 的 可 能 。 


12.1.2 ”在 Hadoop 上 运行 Python 程序 


众所周知 Hadoop 是 Java 编 写 的 ， 原 生 的 MapReduce 程 序 也 需要 使 用 java 编写 。 但 本 书 既 不 是 Hadoop 教 程 也 不 是 Java 教 程 ， 所 以 不 打算 深入 地 讲解 这 些 知识 。 难 道 Hadoop 除 了 Java 就 不 能 用 了 么 ? 
并 不 是 这 样 的 。Hadoop 提 供 了 一 个 编程 工具 名 为 Hadoop Streaming， 它 允许 用 户 使 用 任何 可 执行 文件 或 脚本 作为 Map 和 Reduce 步 骤 的 程序 。 一 个 使 用 Python 编写 的 简单 的 world-count 程 序 ( 词 频 统 
计 ) 可 以 分 为 如 下 两 个 文件 ， 见 代码 清单 12-1 和 代码 清单 12-2。 


代码 清单 12-1: mapper.py 


#!/usr/bin/env Python 
import sys 


for line in sys.stdin: 
line = line.strip () 
words = line.split() 
for word in words: 
print ('%s\t%s' 委 (word, 1)) 


代码 清单 12-2: reducer.py 


#!/usr/bin/env python 


import sys 
from collections import Counter 


word count = Counter() 


for line in sys.stdin: 
line = line.strip () 


word, count = line.split('\t', 1) 
word count [word] += int (count) 


for item in word count.items(): 
print('{}\t{}'.format (*item)) 


Hadoop Streaming 的 基本 思路 就 是 通过 标准 输入 和 标准 输出 传递 数据 ， 由 Hadoop 计 算 框架 来 调用 我 们 自 定 义 的 Map 和 Reduce 程 序 运算 。 为 了 测试 程序 的 效果 ， 可 以 在 命令 行 执行 如 下 的 语句 : 


$cat test.txt| Python mapper.py | Python reducer.py 


如 果 读 者 使 用 的 是 Windows 系 统 ， 则 可 以 使 用 下 面 的 命令 : 


$python mapper.py < test.txt | python reducer.py 


通过 上 面 的 命令 可 以 模拟 运行 ， 得 到 的 结果 将 会 类 似 于 下 面 的 样子 : 


all 二 
project. 玉 
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existing 1 
not 


1 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


如 果 读 者 已 经 下 载 了 Hadoop， 则 可 以 使 用 类 似 下 面 的 命令 在 Hadoop 中 运行 该 任务 : 


hadoop@ubuntu: /usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-0.20.0-streaming.jar -file /home/hadoop/test.txt -mapper /home/hadoop/mapper.py -file/home/hadoop/reduc 


不 过 由 于 本 书 并 没有 介绍 如 何 安装 和 使 用 Hadoop， 所 以 如 果 读 者 想 要 进行 真正 的 操作 还 需要 一 些 额外 的 努力 。 当 然 除 了 自己 安装 部 署 Hadoop 之 外 ， 还 有 一 个 选择 ， 那 也 是 笔者 推荐 的 选择 一 使 用 
AWS。 


AWS 是 亚马逊 云 计算 服务 的 简称 ，AWS 提 供 了 丰富 的 功能 ,其 中 就 包括 一 项 全 托管 的 Hadoop 服 务 ， 称 为 EMR， 如 图 12-5 所 示 。 


我 们 可 以 通过 简单 的 网 页 控制 台 单 击 几 下 鼠标 就 能 创建 一 个 真正 的 Hadoop 集 群 进行 学 习 ， 这 样 做 比 网 络 上 一 些 教程 中 教授 的 在 本 地 虚拟 机 中 搭建 伪 集群 要 方便 得 多 ， 只 需要 按照 使 用 的 小 时 数 付 给 亚 
马 逊 少量 的 费用 (最 低 的 配置 每 小 时 1-2 元 人 民 币 ) 就 可 以 省 去 很 多 的 麻烦 ， 这 是 非常 合算 的 。 有 想 要 尝试 的 读者 可 以 访问 http://aws.amazon.com 注 册 账 号 ， 并 查看 其 文档 (中 文 ) 学 习 如 何 使 
用 ，https://aws.amazon.comy/cny/documentationyelasticmapreduce/。 另 外 值得 说 明 的 是 ，AWS 的 Hadoop 版 本 预 装 了 Hive、Pig 及 12.2 节 会 讲 到 的 Spark， 所 以 如 果 想 要 深入 地 学 习 这 些 框架 ， 首 选 的 
方式 就 是 使 用 AWS 了 。 图 12-6 是 EMR 的 创建 集群 页 面 。 
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Amazon Elastic MapReduce (Amazon EMR) 是 一 种 能 让 企业 、 研 究 人 员 、 数 据 分 析 师 和 开发 人 员 既 松 和 经 EMR 妓 壕 
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图 12-5 AWS EMR 界 面 
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12-6 ”EMR 创建 集群 页 面 


12.2 Spark 


12.2.1 为 什么 需要 Spark 


我 们 已 经 有 了 Hadoop 了 ， 为 什么 还 需要 Spark 呢 ?答案 很 简单 ， 因 为 Hadoop 不 够 快 。 因 此 ， 想 要 更 好 地 认识 Spark 的 办 法 就 是 与 Hadoop 进 行 比较 ，Spark 的 快 体现 在 以 下 三 个 方面 。 


: DAG， 称 为 有 向 无 环 图 。 有 别 于 Hadoop 使 用 的 MapReduce 计 算 框架 ，Spatk 使 用 DGA 引 擎 。 传 统 的 MapReduce 框 架 在 每 一 个 Map 或 Reduce 步 骤 完 成 之 后 需要 将 结果 存储 到 HDFS 上 ， 然 后 由 下 一 个 步骤 再 
次 读 取 ， 由 于 存储 系统 的 速度 是 相对 较 慢 的 ， 这 极 大 地 影响 了 计算 的 效率 ， 所 以 Spatk 改 进 了 这 一 点 ， 它 可 以 将 计算 的 中 间 结 果 直 接 传送 到 流水 作业 的 下 一 步 。 不 仅 如 此 ，DAG 还 可 以 分 析 步骤 之 间 的 依赖 关 
系 ， 自 动 优 化 计算 的 步骤 ， 取 消 没有 实际 意义 的 步骤 以 进一步 节约 计算 时 间 。 

“RDD， 称 为 弹性 分 布 式 数据 集 。 与 Hadoop 开 发 的 HDFS 的 重要 意义 一 样 ，Spark 开 发 的 RDD 也 是 一 个 非常 重要 的 进步 。RDD 能 够 将 整个 集群 全 部 的 内 存 统一 利用 起 来 ， 并 且 将 全 部 的 数据 都 载 入 内 存 
中 ， 如 果 在 计算 的 过 程 中 需要 菜 些 数据 ， 那 么 可 以 直接 从 菜 个 节点 的 内 存 中 读 取 数据 ， 而 不 再 需要 从 慢 速 的 硬盘 中 读 取 。 这 一 点 改进 的 意义 在 需要 反复 迭代 的 机 器 学 习 的 应 用 中 尤其 重大 ， 高 效 的 分 布 也 使 
得 机 器 学 习 成 为 可 能 。 


: REPL， 称 为 交互 式 命令 。 我 们 学 习 Python 的 一 个 最 重要 的 原因 是 因为 Python 有 命令 行 shell， 可 以 在 不 编写 、 编 译 代码 文件 时 运行 菜 些 测试 命令 或 程序 。 这 一 特点 恰好 回合 了 数据 科学 的 工作 特性 
Scala 作 为 首要 开发 语言 ， 这 种 语言 与 Python 一 样 拥有 动态 特性 ， 因 此 使 用 Spark 就 像 使 用 Python 一 样 


CPU、 硬 间或 网 络 都 不 是 瓶颈 ， 最 大 的 成 本 是 数据 科学 从 业 人 员 的 生产 效率 。Spark 使 用 一 种 JVM 语 言 !1 
亲切 。 而 实际 上 Spatk 是 支持 Python 的 编程 的 ， 不 仅 可 以 运行 Python 的 Spatk 程 序 ， 而 且 连 交互 式 命令 行 也 有 Python 的 版 本 。 下 面 的 pyspatk (Spatk 的 Python shell) ， 看 起 来 是 不 是 很 亲切 呢 ? 


[hadoop@ip-172-31-27-16 ~]$ pyspark 

Python 2.7.10 (default, Aug 11 2015, 23:39:10) 

[GCC 4.8.3 20140911 (Red Hat 4.8.3-9)] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
Welcome to 


version 1.5.2 


Using Python version 2.7.10 (default, Aug 11 2015 23:39:10) 
SparkContext available as sc, HiveContext available as sqlContext. 
>>> 


Spark 可 以 运行 在 Hadoop 的 Yarn 引 敬之 上 ， 使 用 HDFSs 作 为 数据 持久 化 的 方案 ， 并 且 与 绝 大 多 数 Hadoop 生 态 系统 中 的 应 用 紧密 继承 。 能 够 读 写 Hive、HBase 和 Impala 等 Hadoop 上 的 分 布 式 数据 库 的 
数据 。 除 此 之 外 ，Spark 还 提供 了 大 量 的 标准 模块 ， 比 如 Streaming 可 以 用 来 实时 处 理 流 式 数据 、Spark-SQL 是 一 个 分 布 式 的 内 存 型 SQL 引擎 、Millib 可 以 进行 分 布 式 的 机 器 学 习 任务 、GraphX 可 以 处 理 分 布 
式 图 数据 。 除 了 支持 Java 及 Scala 编 程 语言 之 外 ， 它 还 支持 Python 和 R 语 言 ， 这 些 特性 简直 就 是 专门 为 数据 科学 工作 者 而 提供 的 。 


[由 JVM 语 言 是 指使 用 JAVA 的 运行 环境 ， 而 没有 自己 的 运行 环境 的 语言 。 


12.2 Spark 


12.2.1 为 什么 需要 Spark 


我 们 已 经 有 了 Hadoop 了 ， 为 什么 还 需要 Spark 呢 ”答案 很 简单 ， 因 为 Hadoop 不 够 快 。 因 此 ， 想 要 更 好 地 认识 Spark 的 办 法 就 是 与 Hadoop 进 行 比较 ，Spark 的 快 体现 在 以 下 三 个 方 
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“ DAG， 称 为 有 向 无 环 图 。 有 别 于 Hadoop 使 用 的 MapReduce 计 算 框架 ，Spark 使 用 DGA 引 擎 。 传 统 的 MapReduce 框 架 在 每 一 个 Map 或 Reduce 步 又 完成 之 后 需要 将 结果 存储 到 HDFS 上 ， 然 后 由 下 一 个 步骤 再 
次 读 取 ， 由 于 存储 系统 的 速度 是 相对 较 慢 的 ， 这 极 大 地 影响 了 计算 的 效率 ， 所 以 Spartk 改 进 了 这 一 点 ， 它 可 以 将 计算 的 中 间 结 果 直 接 传送 到 流水 作业 的 下 一 步 。 不 仅 如 此 ，DAG 还 可 以 分 析 步骤 之 间 的 依赖 关 
系 ， 自 动 优 化 计算 的 步骤 ， 取 消 没有 实际 意义 的 步骤 以 进一步 节约 计算 时 间 。 


* RDD， 称 为 弹性 分 布 式 数据 集 。 与 Hadoop 开 发 的 HDFS 的 重要 意义 一 样 ，Spatk 开 发 的 RDD 也 是 一 个 非常 重要 的 进步 。RDD 能 够 将 整个 集群 全 部 的 内 存 统一 利用 起 来 ， 并 且 将 全 部 的 数据 部 载 入 内 存 
中 ， 如 果 在 计算 的 过 程 中 需要 某 些 数据 ， 那 么 可 以 直接 从 菜 个 节点 的 内 存 中 读 取 数 据 ， 而 不 再 需要 从 慢 束 的 硬盘 中 读 取 。 这 一 点 改进 的 意义 在 需要 反复 选 代 的 机 器 学 习 的 应 用 中 尤其 重大 ， 高 效 的 分 布 也 使 
得 机 器 学 习 成 为 可 能 。 


“ REPL， 称 为 交互 式 命令 。 我 们 学 习 Python 的 一 个 最 重要 的 原因 是 因为 Python 有 命令 行 shell， 可 以 在 不 编写 、 编 译 代码 文件 时 运行 菜 些 测试 命令 或 程序 。 这 一 特点 恰好 回合 了 数据 科学 的 工作 特性 
CPU、 硬 盘 或 网 络 都 不 是 瓶颈 ， 最 大 的 成 本 是 数据 科学 从 业 人 员 的 生产 效率 。Spatk 使 用 一 种 JVM 语 言 中 Scala 作 为 首要 开发 语言 ， 这 种 语言 与 Python 一 样 拥有 动态 特性 ， 因 此 使 用 Spark 就 像 使 用 Python 一 样 
亲切 。 而 实际 上 Spatk 是 支持 Python 的 编程 的 ， 不 仅 可 以 运行 Python 的 Spatk 程 序 ， 而 且 连 交互 式 命令 行 也 有 Python 的 版 本 。 下 面 的 pyspatk (Spatk 的 Python shell) ， 看 起 来 是 不 是 很 亲切 呢 ? 


[hadoop@ip-172-31-27-16 ~]$ pyspark 

Python 2.7.10 (default, Aug 11 2015, 23:39:10) 

[GCC 4.8.3 20140911 (Red Hat 4.8.3-9)] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 
Welcome to 
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Using Python version 2.7.10 (default, Aug 11 2015 23:39:10) 
SparkContext available as sc, HiveContext available as sqlContext. 
> 


Spark 可 以 运行 在 Hadoop 的 Yarn 引 敬之 上 ， 使 用 HDFS 作 为 数据 持久 化 的 方案 ， 并 且 与 绝 大 多 数 Hadoop 生 态 系统 中 的 应 用 紧密 继承 。 能 够 读 写 Hive、HBase 和 Impala 等 Hadoop 上 的 分 布 式 数据 库 的 
数据 。 除 此 之 外 ，Spark 还 提供 了 大 量 的 标准 模块 ， 比 如 Streaming 可 以 用 来 实时 处 理 流 式 数据 、Spark-SQL 是 一 个 分 布 式 的 内 存 型 SQL 引擎 、Mllib 可 以 进行 分 布 式 的 机 器 学 习 任务 、GraphX 可 以 处 理 分 布 
式 图 数据 。 除 了 支持 Java 及 Scala 编 程 语言 之 外 ， 它 还 支持 Python 和 R 语 言 ， 这 些 特性 简直 就 是 专门 为 数据 科学 工作 者 而 提供 的 。 


目 JVM 语 言 是 指使 用 AVA 的 运行 环境 ， 而 没有 自己 的 运行 环境 的 语言 。 


12.2.2 ”如 何 学 习 Spark 


可 能 有 人 会 问 ， 想 要 学 习 Spark 需 要 先 学 习 Hadoop 么 ? 我 的 回答 是 : 并 不 需要 。Spark 已 经 被 设计 成 非常 容易 入 门 的 样子 了 ， 只 要 你 会 一 门 编程 语 
Spark 的 官方 文档 和 教程 非常 适合 于 入 门 ， 而 且 大 多 数 操作 都 有 Scala 和 Python 两 个 版 本 ， 如 图 12-7 所 示 。 


中 


， 比 如 本 书 所 讲 的 Python 就 可 以 开始 学 习 了 。 
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This tutorial provides a quick introduction to Using Spark. We will first introduce the API through Spark's interactive shell (in Python or Scaia), then 
show how to write applications in Java, Scala, and Python. See the programming guida for a more complete reference. 


To follow along with this guide, frst download a packaged release of Spark from the Spark website. Since we won't be using HDFS, you can 
downiload a package for any version of Hadoop. 


Interactive Analysis with the Spark Shell 


Basics 


Spark’s shell provides a simple way to learn the AP as well as a powerful tool to analyze data interactively. It is available in either Scala {which 
runs on the Java VM and is thus a good way to use existing Java libraries) or Python. Start it by running the following in the Spark directory: 


Scala ”Python 


"/bin/pyspark 


Spark’s primary abstraction is a distributed collection of items called a Resiient Distributed Dataset (RDD), RDDs can be created from Hadoop 
InputFormats (such as HDFS files) or by transforming other RDDs. Lets make a new RDD from the text of the README file in the Spark source 
directory: 


>>> textFile = sc,textFile("README, ng") 


RDDs have actions, which return values, and transfonmations, which return pointers to new RDDs, Let's start with a few actions:- 


图 12-7 Spark 官方 网 站 


Spark 的 单机 调试 也 非常 方便 ， 在 使 用 Mac 或 Linux 系 统 的 情况 下 ， 在 Spark 的 下 载 页 面 上 下 载 任意 一 个 Hadoop 预 编译 版 ， 然 后 在 类 似 图 12-8 的 界面 中 我 选择 的 是 spark-1.6.1-bin-hadoop2.6.tgz[]。 


Chrome 文件 ”修改 ”视图 ”历史 记 5 签 其 他 人 窗口 ”帮助 4 月 5 日 周 


® 9 a54222 x 全 DeepMNx 全 comol x /Meche x XAmed x Dspaky % Writing xX MNWiting % MHadoop x ， Gyarn 风 5 x / Apache x HDFSAX  \Welcon x YDonnle x 路 


© spark.apache.org/downloads htm 评 必 


Apache Software Foundation ~ 


Latest News 


Download Apache SparkTM 


Our latest version is Spark 1.6.1, released on March 9, 2016 (rslease notes) (glt tag Submission is open for Spark Summit 


Spark 1.6.1 released Ms 


San Franclsco (Feb 11, 2017) 

Spark Summit Esst (Feb 16, 2016, 
New York) agenda posted tan 14 
3 Choose a download typa: Seiect Apache Miror 回 2016 


1, Choose a Spark release: 1611Mer 09 2016| 回 


2. Choose a package type: Pre-built tor Hacoon 2.6 and lator 局 


#4 Download Spark SB rdoop2.64 Spark 1.6.0 released [an 04, 2018 


Ac 


5 Verify this release using the 1.6 1 signatures and checksums, 


Note: Scala 2 1 users should downioad the Spark source package arnd build with Scala 2 11 suppor 


Link with Spark 
Spark artiiacis are hosted In Mav nral, You can add a Maven dependency with the 和 llowing coordinates: 
Built-in Libraries: 
groupld: org.apache.spark 
artifactid: Spark-core 2.10 } Id DataFra 
version: 1.6.1 park Sir 


Spark Source Code Management 


if you are interested in working with the newest under-development code or contributing to Apache Spark development, you can also 
Check out the master branch from Git 


# Master development branch 
git clone git://github.com/apache/spark.git 


图 12-8 下载 Spark 的 页 面 


在 打开 的 新 的 下 载 页 面 上 下 载 任意 一 个 镜像 站 点 提供 的 下 载 链 接 ， 下 载 即 可 ， 如 图 12-9 所 示 。 
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The Apache Way 
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OFTWARE FOUNDATION 


We suggest the following mirror site for your download: 
http://mirrors.noc.im/apache/spark/spark-1.6.1spark-1.6.1-bin-hadoop?2.6.tgz 


Other mirror sites are suggested below. Please use the backup mirrors only to download PGP and MD5 signatures to verify your downloads or if no other mirrors are 
working. 


http://apache.opencas.org/spark/spark-1,6,Lspark-1.6.1-bin-hadoop2.6,tgz 
http://mirrors.cnnic.cn/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz 
https/mirrors.hust.edu.cn/apache/spark/spark-1.6.1/spark-1,6,1.bin-hadoop2.6.tgz 


http:/mirrors.noc.im/apache/spark/spark-1.6.1/spark-1,6.1-bin-hadoop2.6.tgz 


BACKUP SITES 


Please use the backup mirrors only to download PGP and MDS signatures to verify your downloads or 证 no other mirrors are working. 


http://www-eu.apache.org/dist/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz 


站 5park1.6.1-bin-hadoo,-t9z 。 
已 下 虹 144/275 MS， 还 需 


图 12-9 ”Apache 镜像 下 载 


很 快 就 可 以 下 载 完毕 ， 只 有 200MB 的 大 小 ， 然 后 解压 压缩 包 ， 并 在 命令 行 中 进入 压缩 包 的 目录 : 


MacBook-Pro:Downloads:$ cd spark-1.6.1-bin-hadoop2.6 

MacBook-Pro: spark-1.6.1-bin-hadoop2.6:$ bin/pyspark 

Python 2.7.11 (default, Jan 28 2016, 13:11:18) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 


Using Spark's default 1og4j profile: org/apache/spark/1094j-defaults.properties 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


Welcome to 


NR 
a 
/人 / .二 八 了 /TAN version 1.6.1 
2 
Using Python version 2.7.11 (default, Jan 28 2016 13:11:18) 
SparkContext available as sc, HiveContext available as sqlContext. 
> 


接 下 来 输入 bin/pyspark 就 可 以 打开 Spark 的 交互 式 命令 行 ， 因 


如 果 读者 使 


AWS 则 可 以 启动 Spark 集 群 ， 这 样 我 们 的 程序 就 不 仅仅 是 单机 的 测试 了 ， 而 是 真正 地 在 集群 中 运行 。 可 以 按照 AWS 的 文档 登录 到 EMR 和 集群 的 Master 主 机 上 ， 然 


为 我 们 使 用 的 是 Python 版 的 Spark 命 令 行 ， 所 以 命令 提示 符 与 Python 的 一 致 。 


后 运行 : 


$pyspark --master yarn-client --num-executors 2 --driver-memory 1g --executor-memory 19 


这 里 有 几 个 参数 需要 说 明 ， 其 中 num-executor 是 计算 容器 | 
器 数量 太 多 ， 那 么 并 不 会 真正 启动 如 此 多 个 容器 而 已 ， 有 效 的 容器 数 只 要 内 存 耗 尽 就 不 会 再 增加 了 。 


无 论 怎样 ， 我 们 已 经 启动 了 一 个 Spark， 现 在 来 进行 一 个 简单 的 操作 ， 读 取 文本 文件 : 


>>>textFile = sc.textFile ("README .md") 


如 果 你 是 在 Mac 或 Linux 上 进行 本 操作 的 ， 那 么 README.md 是 已 经 存在 的 了 ， 如 果 是 在 AWS 上 进行 试验 的 ， 那 么 你 可 以 


己 创建 一 个 文本 文件 ， 并 加 入 一 些 内 容 。 示 例如 下 : 


的 个 数 ，executor-memory 是 计算 容器 的 内 存 数 ， 请 根据 你 所 开 的 集群 总 内 存 酌情 选择 参数 的 数值 ， 总 数 可 以 超过 集群 总 内 存 ， 只 是 如 果 容 


>>>textFile.count () 
95 


我 们 可 以 使 


count() 方 法 查看 读 取 的 文件 一 共有 多 少 行 : 


>>>textFile. first () 
u'# Apache Spark' 


也 可 以 使 


first0 方 法 读 取 文件 中 的 第 一 行 : 


>>>textrFile.filter (lambda line: "Spark" in line) .count () 
17 


最 后 一 个 例子 是 统计 在 这 个 文本 文件 中 包含 多 少 个 “Spark” 字 符 。 更 多 的 例子 请 读者 参考 https://spark.apache.org/docsy/latest/programming-guide.html 进 行 练 习 ， 在 这 生 


Spark 有 多 么 简单 甚至 一 点 都 不 比 使 


Python 复杂 。 


除了 上 文 的 例子 之 外 还 有 一 点 值得 强调 ， 那 就 是 Spark 的 编程 模型 。 在 Spark 中 所 有 的 命令 都 被 分 为 两 类 : 转换 (Transformations) 和 操作 (Actions) 。 在 上 例 中 filter0 函 数 
惰性 求 值 的 办 法 ， 当 接收 到 操作 命令 时 才 一 并 进行 计算 。 这 种 方式 可 以 将 在 数据 处 理 管道 中 进行 到 任何 步骤 的 数 拉 


操作 ，Spark 在 接收 到 转换 命令 时 并 不 会 真正 进行 计算 ， 而 是 采 


1] 在 读者 拿 到 本 书 时 可 能 已 经 有 新 的 版 本 了 ， 不 用 担心 大 可 以 选择 最 新 的 版 本 ， 使 用 方法 不 会 有 区 别 的 。 


12.3 ”大 数据 与 数据 科学 的 区 别 


本 节 想 讨论 一 下 大 数据 与 数据 科学 的 


区 别 。 不 少 人 会 存在 一 个 误解 ， 无 论 多 少数 据 只 要 使 


定 流程 的 工具 。 


我 们 应 当 将 重点 放 在 理解 各 种 技术 背 


的 知识 ， 还 有 几 个 必要 的 工具 需要 掌 
“如 果 这 些 东西 我 都 没有 ， 那 么 是 不 是 就 做 不 了 数据 科学 ? ”当然 可 以 做 ， 因 为 最 重要 的 就 是 “去 做 ”。 
的 人 的 唯一 区 别 就 是 是 否 行动 了 。 没 有 必要 去 考虑 投资 回报 率 这 种 问题 ， 因 为 人 的 创造 力 是 难以 估计 的 ， 而 且 是 潜力 


问 : 
和 做 不 型 


特定 的 工具 而 已 。 我 们 常 说 “人 不 是 工具 的 奴隶 ”， 工 具 是 为 人 的 创造 力 服务 的 。 虽 然 本 书 重点 讲解 了 各 种 各 样 的 Python 的 数据 科学 相关 的 工具 ， 


后 的 原理 上 。 就 像 这 本 书 前 面 偶尔 提 到 的 一 样 ， 数 据 科学 是 一 门 比较 复杂 的 学 科 ， 涉 及 的 知识 门类 也 比较 庞杂 ， 甚 至 还 需 
屋 : 过 硬 的 英语 水 平 、 扎 实 的 数学 功底 、 高 超 的 编程 技巧 ， 以 及 洞察 力 。 看 到 这 儿 是 不 是 有 的 读者 已 经 在 心里 起 了 疑 

后 天 的 学 习 和 训练 才 获 得 这 些 基本 功 的 ， 能 做 到 的 人 
自己 的 价值 ， 更 别 说 投资 回报 率 了 。 你 可 以 赁 兴 


没有 人 天 生 就 拥有 这 些 ， 任 何人 都 是 通过 


但 


有 只 是 为 了 


属于 转换 ，count() 
居 存 储 在 内 存 中 以 备 后 


展示 使 


属于 


Hadoop 就 算是 在 搞 大 数据 。 其 实 大 数据 从 来 也 不 是 一 个 专业 ， 更 不 是 一 个 学 科 ， 只 是 一 种 数据 处 理 的 方 
的 并 不 在 于 培训 出 一 批 又 一 批 的 编程 工人 ， 


巨大 的 ， 你 无 法 估计 


或 其 他 别 
自己 。 


的 什么 东西 ， 将 这 件 事 做 下 去 ， 并 且 坚 持 下 来 ， 每 天 坚持 3 ~ 5 个 小 时 ， 不 间断 1 个 月 后 


我 希望 阅读 本 书 的 读者 能 够 通过 本 书 扫除 一 部 分 入 门 数 据 科学 的 障碍 ， 但 是 不 要 忘记 工具 仅仅 是 辅 


助 ， 重 要 的 是 使 


虹 


自然 就 会 爱 上 它 ， 并 持续 受 惠 于 它 。 做 科学 的 人 不 求 回报 ， 只 求 


附录 A ”编写 Python 2 与 Python 3 兼容 的 代码 


里 然 本 书 并 没有 详 旨 
在 Python 3 的 设计 之 初 就 不 得 不 放弃 向 下 兼容 性 ， 通 常 来 说 Python 3 与 Python 2 


介绍 Python 3， 但 是 未 来 从 Python 2 过 渡 到 Python 3 几乎 是 必然 的 趋势 ， 为 此 Python 社 
的 代码 是 不 兼容 的 。 正 是 基于 这 样 的 原因 


区 已 经 努力 了 8 年 
， 整 个 Python 社 


F 之 久 。Python 3 是 为 了 解决 Python 2 中 的 一 些 设计 缺陷 而 诞生 | 


一 些 社会 工程 、 经 济 学 、 心 理学 的 知 


趣 、 毅 力 
自己 的 工作 能 产生 价值 ， 哪 怕 仅仅 只 是 帮助 


者 的 头脑 ， 希 望 读者 能 以 科学 的 精神 继续 探索 和 学 习 ， 不 要 止步 于 摆 在 面前 的 内 


的 ， 所 以 


区 花费 了 大 量 的 时 间 来 升级 第 三 方 库 ， 以 及 鼓励 


本 。 有 的 第 三 方 库 会 使 
为 自己 玩乐 的 话 大 可 不 必 介意 ， 如 果 编 写 的 程序 有 可 能 会 供 别 人 使 
可 以 参考 本 附录 的 内 容 。 


的 话 ， 则 应 该 


户 使 


新 的 版 


Python 3 重新 编写 ， 至 少 也 要 以 同时 兼容 Python 3 和 Python 2 的 方式 来 编写 。 本 附录 将 会 介绍 Python 3 与 Python 2 的 不 同 之 处 ， 以 及 编写 兼容 代码 的 建议 。 如 果 读 者 开发 程序 是 
阅读 本 章 的 内 容 。 当 然 ， 如 果 在 阅读 某 些 开 源 项 目 时 发 现代 码 中 包含 了 大 量 的 为 了 兼容 性 而 编写 的 代码 却 不 得 要 领 时 ， 也 


为 了 后 续 内 容 的 学 习 ， 读 者 需要 安装 如 下 两 个 额外 的 第 三 方 库 : 


pip install future 
pip install six 


A.1 概览 


Python 之 父 Guido van Rossum 曾 经 写 过 一 篇 文章 简要 介绍 Python3 增 加 了 什么 、 改 变 了 什么 ["]， 本 节 将 简要 总 结 一 下 其 中 的 内 容 ， 希 望 能 让 读者 快速 掌握 其 中 的 精髓 。 
A.1.1 可 能 产生 麻烦 的 改变 
“打印 (print) 从 关键 字 改 为 函数 了 ， 不 再 能 使 用 print 123 这 样 的 形式 了 。 


“ 出 于 对 性 能 的 考虑 ， 常 见 的 返回 list 对 象 的 API 现 在 均 返 回 view (一 种 可 和 迭代 对 象 ) 或 iterator 了 。 上 比如 dictkeys0、dictvalues0、trange0、map0 和 filter0 。 因 此 dict,iterkeys0、dict.itervalues0 和 xrange0 被 移 除 
了 ， 而 且 也 不 能 使 用 dict.keys0.sort0) 了 ， 只 能 使 用 sorted(dict.keys0)。 


: 为 了 防止 意 想不到 的 Bug， 顺 序 比 较 符 的 行为 改变 了 。<、<=、>=、> 不 再 能 比较 不 可 比 的 操作 数 了 ， 比 如 1<="1"， 在 Python 2 中 为 True， 在 Python 3 中 则 会 报 TypeError 的 错误 。 因 此 所 有 需要 利用 顺 
序 操作 符 进行 比较 的 行为 也 都 会 报错 ， 比 如 sorted([1,"1"])， 在 Python 2 中 是 可 以 排序 的 ， 在 Python 3 中 则 会 导致 TypeEtror 的 错误 。 


“ 整数 的 行为 改变 了 。Python 2 中 的 long 类 型 不 存在 了 ，Python 3 中 只 有 一 种 int 类 型 可 以 表示 任意 位 数 的 整数 。 因 此 在 Python 2 中 long 类 型 末尾 的 L 也 取消 了 。 另 外 值得 注意 的 是 在 Python 3 中 2/3 不 再 表示 
整除 法 了 ， 而 是 正常 的 除法 。 想 要 使 用 整除 法 可 以 使 用 2//3 代 蔡 。 


: 二 进 制 数据 和 Unicode 的 行为 改变 了 。 在 Python 3 中 分 别 使 用 text 和 (binary)datal” 替换 了 Python 2 中 的 Unicode 字 符 串 和 8-bit 字 符 串 ， 并 且 所 有 的 text 都 是 Unicode 编 码 了 ， 不 再 需要 u"1" 来 表示 Unicode 了 。 想 
要 表示 (binary)data 需 要 在 字符 前 加 b， 例 如 b"1" 表 示 使 用 ASCII 来 编码 "1"。str 类 型 对 应 的 是 text， 而 bytes 类 型 对 应 的 是 (binary)data。 由 于 在 Python 3 中 详细 区 分 了 两 种 字符 串 ， 所 以 也 不 能 直接 混合 两 种 类 型 的 字 
符 囊 了 。 比 如 "1"+b"1" 就 是 错误 的 ， 想 要 混合 两 种 字符 串 需 要 先 转换 编码 ，"1".encode0+b"1" 都 是 "1"+b"1".decode0 都 是 正确 的 。 还 有 另外 一 些 改变 在 此 不 能 一 一 详 述 ， 感 兴趣 的 读者 可 以 参 


考 : https://docs.python.org/3/whatsnew/3.0.html#text-vs-data-instead-of-unicode-vs-8-bit。 


A.1.2 语法 上 的 改变 


Python 3 增加 了 一 些 新 的 语法 ， 并 且 也 切实 改变 了 一 些 语法 BI。 实 际 上 语法 的 改变 对 编写 Python 2 和 Python 3 兼容 的 代码 的 实际 影响 是 很 小 的 ， 因 为 现在 我 们 在 本 书 及 一 些 其 他 资料 上 学 习 的 语法 已 
经 是 Python 3 的 新 语法 了 (如果 读者 不 打算 支持 Python 2.6 以 下 的 Python 版 本 的 话 ) 。 


1 新 语法 
新 增 的 语法 由 于 在 Python 2.x 上 没有 对 应 的 功能 ， 所 以 这 一 部 分 是 没 法 编写 兼容 的 代码 的 。 
: 新 增 函 数 参数 及 返回 值 的 声明 语法 站。 
“ 函数 参数 支持 在 *ategs 之 后 增加 附带 默认 值 的 参数 了 (不 必 是 *ykwatgs) ， 并 且 可 以 使 用 单个 + 表示 不 接受 变 长 参数 中 。 
: 因为 改变 了 元 类 的 声明 方式 ( 见 下 文 ) ， 所 以 现在 允许 在 声明 类 时 在 基 类 后 增加 关键 字 参 数 。 
“ 增加 了 nonlocal 关 键 字 [1。 


“ 提升 了 序列 解 包 的 能 力 !1， 现 在 像 下 面 的 语句 也 可 以 解 包 : 


(a, *rest, b) = range(5) 


如 读者 所 想 ，rest 将 会 获得 [1,2,3] 这 个 值 。 并 且 字 典 和 几何 也 可 以 进行 序列 解 包 了 ， 例 如 : 


{k: Vv for k, Vv in stuff} 
Ix Torx in Btusf} 


“ 新 增加 了 二 进 制 字符 串 表 示 法， 在 字符 串 前 加 b 来 表示 bytes()。 


2. 改 变 的 语法 


“ 异常 的 抛 出 (raise) 与 捕获 (except) 语法 有 变动 ，except 需 要 写成 : 


except exc as Var 


而 不 是 : 


except exc, var 


而 raise 的 语法 则 改 为 : 


raise [expr [from expr]] 


“ 改变 了 元 类 的 语法 ， 原 来 可 以 写成 : 


class C: 
metaclass =M 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


现在 必须 写成 : 


class C (metaclass=M) : 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


并 且 所 有 的 类 在 声明 时 都 是 新 类 ， 不 需要 从 object 继 承 了 。 


3. 移 除 的 语法 


“ 不 再 能 进行 元 组 参数 的 解 包 了 ， 比 如 : 


def foola, (b，c) ) : http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16309/0EBPS/Text/... 


不 再 支持 这 样 的 语法 了 ， 需 要 使 


def foola, b c): bl c=bc 


“ 移 除 了 反 引 号 。 
“ 不 再 能 使 用 <> 表 示 不 想 等 了 。 


“ 不 再 支持 长 整形 ， 也 不 能 使 用 LL 后 组 了 。 


“ 不 再 支持 u 前 缓 代表 Unicode 字 符 ， 现 在 所 有 的 字符 都 是 Unicode 的 。 


“ 不 再 支持 函数 中 使 用 from module importkg， 这 个 导入 语句 只 能 在 模块 级 别 上 使 用 。 


“ 现在 相对 导入 只 支持 from.[modulejimport name， 不 以 .开头 的 导入 都 视 为 绝对 导入 。 


“ 移 除了 经 典 类 。 


A.1.3 ”标准 库 的 改变 


由 于 Python 有 众多 的 标准 库 ( 约 300+) ， 所 以 这 一 部 分 的 变化 内 容 比较 琐碎 ， 详 细 的 变化 可 以 参考 https://www.python.org/dewWpeps/pep-3108/， 简 单 概述 如 下 。 


“ 部 分 模块 由 于 很 少 使 用 而 被 移 除 了 (比如 gopherlib) ， 或 者 被 整合 进 其 他 模块 中 (比如 md5 被 整合 进 hashlib) 。 


' 一 部 分 模块 由 于 命名 不 规范 ， 修 改 了 名 字 【( 比 如 ConfigParset 改 成 configparser、Queue 改 成 gueue 等 ) 。 


“ 有 一 部 分 模块 为 了 性 能 (比如 pickle 的 C 语 言 版 本 cPickle) 被 整合 到 一 起 ， 由 解释 器 判断 该 使 用 哪个 版 本 。 


“一些 模块 被 打包 在 一 起 ， 比 如 dbm 集 合 了 旧版 本 的 anydbm、dbhash、dbm、dumbdbm、gdbm 和 whichdb 等 众多 模块 。 


A.1.4 新 的 字符 串 格式 化 方法 


在 本 书 中 ， 我 们 讲解 了 类 似 下 面 的 字符 串 格式 化 方法 : 


"My name is {0}".format('Jilu') 


这 其 实 是 新 的 字符 串 格式 化 方法 ， 所 以 实际 上 我 们 只 学 习 过 新 的 方法 ， 而 且 这 是 一 个 在 Python 2.6 以 后 就 已 经 兼容 了 的 一 个 语法 ， 所 以 并 不 需要 特别 的 注意 。 


A.1.5 ”关于 异常 的 改变 


“ 现在 自 定 义 的 异常 必须 继承 自 BaseException， 这 是 一 个 在 Python 2.6 就 已 经 存在 的 异常 基 类 。 


“ StandardError 现 在 已 经 被 移 除了 。 


: 其 余 的 变化 在 语法 改变 的 一 节 已 经 描述 过 了 。 


A.2 编写 兼容 的 代码 


A.2.1 打印 


也 许 会 出 乎 读者 的 意料 之 外 ， 在 Python 从 2 升级 到 3 的 过 程 中 打印 的 语法 也 发 4 


打印 方法 了 ， 不 过 这 个 打印 方法 仅仅 只 是 看 起 来 像 ， 但 并 不 完全 一 样 ， 下 面 的 程序 展示 了 它们 之 间 的 区 别 : 


了 改变 ， 在 Python 3 中 废弃 了 打印 关键 字 ， 而 是 用 打印 方法 来 代替 ， 如 果 读 者 使 用 的 是 Python 2.7 那 么 也 已 经 存在 这 个 


# Python 2 only 
print "Hello Data'" 


# Python 2 and 3 
Print('Hello Data') 


当 只 打印 一 个 值 的 时 候 ， 在 Python 2 中 也 可 以 使 


与 Python 3 一 样 的 print() 函 数 ， 但 是 当 打印 多 个 值 的 时 候 似乎 与 我 们 想 要 的 结果 不 太一 样 四 ， 此 时 需要 使 


future_ 模 块 : 


# Python 2 and 3: 
from _ future __ 
print ('Hello', 'Data') 


import print function # 必须 在 其 他 import 之 上 


这 时 的 打印 结果 才 与 下 面 的 代码 相同 : 


# Python 2 only: 
Print '‘'Hello', 'Data' 


有 些 读者 可 能 会 在 别人 的 代码 中 看 到 如 下 的 代码 : 


# Python 2 only: 
Print >> sys.stderr, 'Hello' 


将 打印 值 打印 到 标准 错误 中 ， 那 么 兼容 Python 2 和 Python 3 的 对 应 方法 则 如 下 代码 所 示 : 


# Python 2 and 3: 
from _ future ”import print function 


print('Hello', file=sys.stderr) 


A.2.2 ”异常 处 理 


本 章 前 面 的 部 分 已 经 介绍 过 在 Python 3 中 异常 处 理 的 变化 ， 实 际 上 我 们 在 本 书 的 学 习 过 程 中 已 经 在 无 意 之 间 教 授 了 Python 2 与 Python 3 兼容 的 写法 : 


抛 出 异常 : 


# Python 2 and 3: 
def al(): 
raise TypeError('a') 


捕获 异常 堆栈 : 


# Python 2 and 3: 
import traceback 
try: 
al) 
except TypeError as aa: 
print (traceback.format exc()) 


异常 链 : 


# Python 2 and 3: 
from future.utils import raise from 


class DatabaseError (BaseException) : 
pass 


class FileDatabase: 
def _init (self, filename): 
try: 
self.file = open (filename) 
except IOError as exc: 
raise from(DatabaseError('failed to open'), exc 


在 上 面 的 例子 中 ， 只 有 异常 链 这 个 概念 本 书 没有 讲解 ， 实 际 上 这 个 例子 也 很 好 理解 : 我 们 捕捉 到 了 IOError 异 常 ， 但 是 不 想 在 捕捉 到 异常 的 地 方 进行 处 理 (这 是 很 自然 的 想法 ， 有 的 时 候 我 们 并 不 知道 在 
捕获 异常 的 地 方 如 何 处 理 这 个 异常 ) ， 所 以 需要 将 异常 逐 级 往 调 用 的 方向 传递 ， 并 且 用 自己 的 异常 类 进行 包 庄 。raise Exception from exc 是 在 Python 3 之 后 才 出 现 的 语法 ， 所 以 我 们 使 用 future.utils 中 的 
raise_from 来 统一 Python 2 和 Python 3 的 使 用 。 下 面 初始 化 上 面 的 类 : 


FileDatabase('not exist file') 


其 输出 为 : 


Traceback (most recent call last): 
File "/Users/jilu/GitHub/hook2/hook2/test/test jsid.py", line 21, in <module> 

FileDatabase('not exist file') 
File "/Users/jilu/GitHub/hook2/hook2/test/test jsid.py", line 17, in _ init __ 


raise from(DatabaseError('failed to open'), exc 
File "/Library/Python/2.7/site-packages/future/utils/_ init .py", line 455, in raise from 
raise e 


_main .DatabaseError: failed to open 


A.2.3 ”除法 


Python 2.x 中 的 除法 有 些 奇 怪 ，3/2 的 结果 是 1， 而 不 是 1.5， 所 以 通常 我 们 称 这 个 除法 为 整除 法 ， 即 总 是 省 略 余数 的 除法 。 在 Python 3.x 中 这 个 除法 已 经 被 修正 为 普通 的 除法 了 ， 所 以 为 了 让 我 们 的 代码 
无 论 在 Python 2.x 还 是 Python 3.x 中 都 能 正常 的 使 用 ， 可 以 在 Python 文件 的 一 开头 导入 一 个 特别 的 模块 : 


from __ future import division 


这 样 我 们 就 可 以 使 用 Python 3.x 中 的 除法 了 ， 如 果 要 使 用 整除 法 可 以 使 用 3//2 的 语法 来 表示 。 


A.2.4 长 整 型 


在 Python 3.x 中 取消 了 long 的 类 型 ， 所 有 的 类 型 均 为 int 类 型 ， 这 本 来 没什么 ， 大 多 数 情况 下 我 们 不 会 注意 到 它们 之 间 的 区 别 ， 但 是 问题 会 发 生 在 我 们 检查 类 型 的 时 候 : 


# Python 2 
print (type (113338484757757939383828188128182) ) 
print (type (111)) 


上 述 代码 的 输出 为 : 


<type 'long'> 
<type 'int'> 


# Python 3 
print (type (113338484757757939383828188128182) ) 
print (type (111)) 


上 述 代码 的 输出 为 : 


<class 'int'> 
<class 'int'> 


我 们 可 以 在 程序 文件 中 导入 下 面 的 模块 : 


from builtins import int 


这 个 模块 的 功能 很 简单 ， 在 Python 2.x 中 这 个 int 既 是 int 也 是 long， 在 Python 3.x 中 就 是 int， 所 以 类 型 检查 可 以 正常 的 进行 : 


# Python 2 
print (isinstance (113338484757757939383828188128182, int)) # True 


# Python 3 
print (isinstance (113338484757757939383828188128182, int)) # True 


A.3 小 结 
虽然 我 们 已 经 介绍 过 很 多 Python 2 和 Python 3 的 异同 ， 尽 量 将 影响 比较 大 的 变化 向 各 位 读者 进行 了 介绍 ， 但 是 仍然 没有 穷尽 所 有 的 情况 。 比 如 Unicode 字 符 串 和 bytes 类 型 的 改变 ， 元 类 使 用 方法 的 改 
变 ，_str_ 或 _next_ 魔 术 方 法 的 改变 等 在 本 附录 中 都 没有 涉及 。 最 主要 的 原因 是 它们 不 会 经 常 被 使 用 ， 又 或 者 它们 的 改变 我 们 早已 熟知 ， 如 果 读者 想 要 继续 更 深入 的 了 解 其 中 的 变化 可 以 阅读 future 的 官 
方 文档 : http:Wpython-future.org/compatible idioms.html， 和 希望 本 章 对 读者 编写 兼容 的 Python 代码 有 所 帮助 。 


1] https://docs.python.org/3/whatsnew/3.0.html 

2] 所 谓 (binary)data 和 后 文 的 8-bit 字 符 串 均 指 ASCII 字 符 ， 详 情 请 参考 https://docs.python.org/3/howto/unicode.html， 需 要 指出 的 是 中 文 并 不 能 用 ASCII 编 码 ， 所 以 b" 中 文 "会 导致 SyntaxError 的 错误 
3 引 之 所 以 这 么 说 是 因为 很 多 语法 实际 上 在 Python2.6 就 已 经 存在 了 ， 只 不 过 我 们 可 以 同时 使 用 新 旧 两 种 语法 ， 在 Python3 之 后 旧 的 语法 才 真 正 被 废弃 。 

4] https:/ /www.python.org/dev/peps/pep-3107 

5] https:/ /www.python.org/dev/peps/pep-3102 

6] https:/ /www.python.org/dev/peps/pep-3104 


[7] https:/ /www.python.org/dev/peps/pep-3132 
8] 如 果 读 者 使 用 的 是 2.7.11 则 不 会 报错 ， 更 低 的 版 本 可 能 会 报错 。 


附录 B 安装 完整 的 Python 开 发 环境 


本 书 的 第 2 章 简 要 介绍 了 如 何 安装 /打开 Python 交互 式 命令 行 ， 使 用 pip 安 装 Python 的 第 三 方 库 ， 以 及 Sublime Text 编 辑 器 的 简单 使 用 ， 但 这 仅仅 只 是 一 个 入 门 级 别 的 开发 环境 ， 读 者 可 能 会 遇 到 各 种 各 
样 的 问题 ， 尤 其 是 当 使 用 Windows 平 台 时 。 幸 运 的 是 ， 由 于 搜索 引擎 强大 的 能 力 ， 你 几乎 总 是 能 找到 别人 解决 问题 的 方法 ， 所 以 如 果 遇 到 问题 ， 我 们 第 一 个 求助 的 对 象 就 是 网 络 。 但 是 有 些 问题 的 答案 不 是 
那么 明显 ， 或 者 初期 并 不 会 造成 太 大 的 麻烦 ， 因 此 笔者 想 在 本 章 讨 论 一 下 这 些 问 题 ， 以 帮助 读者 有 一 个 良好 的 开始 。 


B.1 安装 /编译 第 三 方 包 


“Python 是 一 个 解释 型 的 语言 ， 并 不 需要 编译 ”。 这 只 是 一 般 的 说 法 ， 实 际 上 在 创造 Python 的 年 代 (1989 年 ) ，Java 还 没有 出 生 ，C+ + 也 还 没有 成 气候 ，Python 的 开发 者 选择 了 (语言 作为 Python 解 
释 器 的 开发 语言 。 而 且 保 留 下 了 “为 了 性 能 有 时 候 可 以 使 用 C 语 言 编写 Python 模 块 ”的 传统 ， 比 如 标准 库 中 的 cPickle 就 是 pickle 的 C 语 言 实现 版 。 这 种 情况 在 第 三 方 库 中 更 是 常见 ， 比 如 在 本 书 中 使 用 过 的 
lxm| 或 MySQLdb 就 是 C 语 言 实现 的 ， 在 安装 的 过 程 中 需要 C/C++ 编译 器 。 


在 Linux/Unix、Mac、Windows 上 都 有 不 同 的 C/C++ 编译 器 ， 比 如 GCC、XCode 和 Visual Studio 这 些 编译 器 在 各 个 平台 上 都 是 可 以 免费 使 用 的 ， 所 以 第 一 件 事 就 是 在 不 同 的 平台 上 安装 对 应 的 
C/C++ 编译 器 。 


B.1.1 Linux 平 台 


在 Linux/Unix 平 台 上 ， 我 们 可 以 通过 不 同 发 行 版 的 包 管 理 器 来 安装 这 些 软件 ， 比 如 在 Ubuntu 14.01 上 可 以 使 用 apt-get 来 进行 安装 ， 比 如 : 


$sudo apt-get install gcc-6.1 


不 过 请 切记 ， 在 使 用 apt-get 之 前 要 更 新 包 管理 器 : 


$sudo apt-get update 


如 果 发 现 某 一 些 包 无 法 找到 ， 那 么 就 更 新 一 下 apt-get。 


但 是 还 有 一 个 更 方便 的 方法 ， 就 是 通过 安装 build-essential 来 安装 编译 器 相关 的 所 有 软件 : 


$sudo apt-get install build-essential 


另外 ， 笔 者 也 推荐 安装 python-dev 这 个 软件 ， 因 为 这 里 包括 了 开发 过 程 中 需要 的 一 些 工具 ， 安 装 的 方法 如 下 : 


$sudo apt-get install Python-dev 


B.1.2 Mac 平台 


在 Mac 平 台 上 ， 第 一 件 事 就 是 安装 XCode， 苹 果 官 方 的 下 载 链接 为 https://developer.apple.com/xcode/。 与 Linux/Unix 类 似 ， 也 有 包 管 理 器 一 HomeBrew， 读 者 可 以 在 其 官方 网 
站 http://brew.sh/ 上 找到 最 新 的 安装 方法 。 如 果 没 有 变化 ， 那 么 安装 HomeBrew 的 命令 应 该 如 下 所 示 : 


咱 


$/usr/bin/ruby -~e "$ (curl -fsSL https://raw.githubusercontent.corm/Homebrew/instal1/master/instal1)" 


这 个 命令 很 长 ， 读 到 这 里 的 读者 请 一 定 要 访问 HomeBrew 的 官方 网 站 并 复制 粘贴 这 一 条 命令 再 执行 ， 以 免 发 生 错误 。 


在 安装 了 HomeBrew 之 后 ， 我 们 可 以 像 在 Ubuntu 中 使 用 apt-get 一 样 安装 软件 ， 只 不 过 这 里 使 用 brew 命 令 代替 apt-get。 还 有 不 要 忘记 HomeBrew 也 需要 更 新 : 


$brew update 


若 要 安装 其 他 的 包 ， 可 以 使 用 下 面 的 命令 进行 安装 : 


$brew install Python 


该 命令 会 重新 安装 Python 的 最 新 版 本 ， 通 常 来 说 Mac 上 的 Python 版 本 可 能 是 Python 2.7.6， 在 本 书写 作 的 时 候 Python 2.x 的 版 本 已 经 到 了 Python 2.7.12， 当 然 我 们 没有 必要 进行 这 个 更 新 ， 本 例 只 是 
用 来 示意 如 何 使 用 brew。 


B.1.3 ”Windows 平 台 


由 于 Windows 平 台 不 像 Linux、Mac 平 台 一 样 直 接 包含 Python 编程 环境 ， 所 以 我 们 需要 自行 安装 Python 解释 器 ， 本 书 的 一 开始 就 已 经 讲解 了 如 何 安装 Windows。 除 此 之 外 ， 我 们 还 需要 安装 Visual 
Studio， 可 以 在 官网 https//www.visualstudio.com/ 下 载 免费 的 社区 版 。 另 外 Windows 上 没有 统一 的 包 管 理 器 ， 所 以 绝 大 多 数 需要 编译 的 Python 第 三 方 包 都 提供 了 一 个 Windows 预 编译 的 版 本 ， 读 者 可 
以 到 这 个 包 的 网 站 上 下 载 .exe 或 .msi 的 Windows 安 装 包 。 比 如 https://pypi.python.org/pypi/lxml/3.4.0 上 就 包含 了 适 配 各 种 版 本 Windows+Python 组 合 的 lxml 预 编译 版 ， 如 图 B-1 所 示 。 


File Type Uploaded on 
xml-3.4.0-cp26-none-win32.whl (md5) Python Wheel 2014-10-08 
xml-3.4.0-cp26-none-win_amd64.whl (md5) Python Wheel 4 2014-10-08 
xml-3.4.0-cp27-none-win32.whl (md5) Python Wheel lS 2014-10-08 
xml-3.4.0-cp27-none-win_amd64.whl (md5) Python Wheel 2014-10-08 
xml-3.4.0-cp32-none-win32.whl (md5) Python Wheel 2014-10-08 
xml-3.4.0.targz (md5, pgp) Source 2014-09-10 
xml-3.4.0.win-amd64-py2.6.exe (md5) MS Windows insta 2014-09-10 
xml-3.4.0.win-amd64-py2.7.exe (md5) MS Windows insta 2014-09-10 
xml-3.4.0.win-amd64-py3.2.exe (md5) MS Windows insta > 2016-06-08 
xml-3.4.0.win-amd64-py3.3.exe (md5) MS Windows insta : 2016-06-08 
xml-3.4.0.win-amd64-py3.4.exe (md5) MS Windows insta 2016-06-08 
xml-3.4.0.win32-py2.6.exe (md5) MS Windows insta a 2014-09-10 


xml-3.4.0.Win32-py2.7.exe (md5) MS Windows insta 和 2014-09-10 
xml-3.4.0.win32-py3.2.exe (md5) MS Windows insta 4 2014-09-10 
Ixml-3.4,0.win32-py3.3.exe (md5) MS Windows insta i 2016-06-08 
xml-3.4.0.win32-py3.4.exe (md5) MS Windows insta 2016-06-08 


Author: Ixml dev team 
Home Page: httpJJ/Ixml.de/ 
Bug Tracker: https://bugs.launchpad.net/lxml 
Download URL: http://pypi.python.org/packages/Source/lWixmllxml-3.4.0.tar.gz 
Categories 
Development Status :: 5 - Production/Stable 
Intended Audience :: Developers 


图 B-1 各 种 lxml 预 编译 版 


如 果 你 使 用 64 位 的 Windows 操 作 系统 ， 安 装 了 Python 2.7 的 版 本 ， 那 么 你 需要 下 载 并 安装 以 下 安装 包 : 


lxml-3.4.0.win-amd64-py2.7.exe (md5) 


这 里 需要 额外 说 明 的 一 点 是 https://pypi.python.org/pypi/ 这 个 网 站 是 Python 官 方 的 仓库 ， 用 来 分 发 第 三 方 的 模块 ， 所 以 若 想 快速 找到 自己 想 要 的 安装 包 ， 应 当 从 这 里 入 手 。 


B.1.4 ”常见 C 语 言 第 三 方 包 列表 


在 说 完了 如 何在 三 大 主流 平台 上 安装 /编译 由 C 语 言 编写 的 模块 之 后 ， 下 面 将 列 出 一 个 列表 供 读者 参考 ， 笔 者 也 建议 预先 安装 这 些 模块 ， 而 不 是 使 用 Python 本 身 的 包 管理 器 pip 进 行 安装 ， 这 样 会 减少 大 
部 分 的 麻烦 。 


libcurl4-openssl-dev 用 于 HPPTS 访 问 


lib-xml2-dev 用 于 lxml 解 析 HTML 


libxslt1-dev 


python-lxml 


python-mysqldb ”用 于 访问 MySQL 数 据 库 


libpq-dev ”用 于 访问 PostgreSQL 数 据 库 


B2 PyCharm 


PyCharm 是 由 JetBrain 公 司 专门 为 Python 开发 的 一 个 IDE (集成 开发 环境 ) 软件 ， 我 们 可 以 在 不 离开 PyCharm 的 情况 下 完成 所 有 软件 开发 的 工作 ， 图 B-2 是 其 打开 的 样子 。 


@eo0 站 run.py - hook2 - [~/GitHub/hook2] - PyCharm 2016.2 EAP 
户 hookz 入 runpy [newer worial | 信守 轩 a 


音 毅 Project 等 ProjectHles 上 区 triepy x 车 scrptpy x 了 taunch and_stoppy x 车 hookzirunpy x 车 rasdutpy x 园 semppy x 车 neworioc_ mrorlalpy [区 me 区 blockmodeloy 
Ev hookz ~/GitHub/hookz 学 ! Jusr/bin/python 
六 > Obuild 2 ¥ ~x- Coding: utf-8 —*- 


a Be from _ future__ import print_function 
vy 和 1 import argparse 
» 证 libs 6 jimport sys 
可 test 4 
志 攻 _init_.py 8 from hook2, aws_manager import_vheck_Dprogres5x ston_spider 
es, < - from febfile import launch. staps ptoad_tg_53， true_ryn, deploy doetas 
ce 区 blockmodel.py 


障 networkx_tutorial.py from hook2 import _ version_. 
启 test_jsid py 


臣 一 nit 一 py # todo script,py 中 的 变量 以 用 环境 变量 和 调用 人 参数 所 种 方式 传 入 

区 amws_manager py def nain(): 

区 errorpy argv = sys.argv[1:] 

蕊 restful.py parser m argparse.Argumentparser(descriptionm'This is a hook2 spider 5ystem') 
parser.add_argunent(" 一 version' mtversion 

区 mn.Py versionra"%(prog)s —Vversion_) 

苞 script.py 2 subparsers = parser.add_subparsers[help='cCommands') 

sync_fetcher. 21 

Bs wd 网 2 launch parser = SDDSrsers .add parser("launch", help="Launch spider system') 

Nr launch_parser.a0d_argument('—count', action='store’, help="Spider instances count”, type=int) 
* hook2.cgg-info 24 launch_parser .add_argunent('—s53_path', action='sto heip="s3 path exclude buck type=str) 
© .gitignore 2 launch_parser.s00_argunent('—bucket', action=’ stor default= gatawarehouse. Ibadyisor. com’ , 


房 fabfile.py 25 help="s3 bucket", type=str) 
车 launch_and_stop.py 
日 MANIFEST 29 
目 README.md 3 Stop_spider parser = SUbparsers.add parser("stop_spider"', help="Stop 5plder processes, but not the entire systen") 
日 requirements.txt 31 

隐 mun.py 


| 隐 setup.py wplood_to_s3_perser = SUbporsers.odd_porser("uplood_to_s3", help=''upload results to 53") 
| 唤 External Libraries 。 wploed_to_s3_perser. odd_argument('—53_dir', or='store', help="target 53 dir", type=str) 


Ston pacser = Subparsers,. a parser("stop", Nelp="Stop spider system") 


check progress porser = SUbporsers.odd_porser("check_progress", help="Check spider progress") 


ypload. to_53 parser = MUUporsers.odd_perser("true_run"', help="run spider”) 


deploy_dotas_perser = SUbporsers.odd_porser("subporsers", help=''deploy data') 

deploy_datas_porser. odd_argument('—s3 poth', a ‘store', help=!'s3 path exclude bucket" 

deploy_datas_parser. add_argumnent('—bucket', orm'store', default=' datwarghouse. badvisor. 
help™"s3 bucket”, type™=str) 


options, args = parser.parse_known_args(argv) 


if argv[I8] :in giobals{(): 
gtobals(].get(argv[I6] ) (Xvars(options)) 


if 一 nane_ = ‘nain_’: 
可 王 veryion Control 。 啤 PythonConsole 门 Terminal 辐 pocker 仿 Pventiog 
3937 LF; UTF-3 Gh: master : 
图 B-2 PyCharm 界 面 图 
读者 可 以 登录 其 官方 网 站 https://www.jetbrains.com/pycharm/ 下 载 ， 如 果 不 需 要 一 些 高 级 功能 ,社区 版 是 免费 的 ， 笔 者 建议 读者 先 使 用 免费 的 版 本 ， 如 果 未 来 有 需要 可 以 付费 升级 为 专业 版 。 安 装 
PyCharm 非 常 简单 ， 只 要 下 载 对 应 操作 系统 的 安装 包 ， 在 图 形 界面 下 按照 安装 引导 进行 操作 即 可 。 可 以 在 上 述 网 页 的 底部 ( 见 图 B-3) 下 载 社区 版 ， 并 对 比 社区 版 和 专业 版 的 区 别 。 


C | ® JetBrains s.r.o, ICZ2) Fr /Wwww.jetbrains,com/ pycharm/ 


< PyCharm What's New Features Docs&Demos Buy 


PyCharm PyCharm 
Community Edition Professional Edition 


Intelligent Python editor 


Graphical debugger and test 
runner 


Navigation and Refactorings 
Code inspections 

VCS support 

Scientiffc tools 

Web development 

Python web frameworks 
Python Profiler 


Remote development 
capabilities 


Database & SQL support 


DOWNLOAD 4 DOWNLOAD ED 
v 


Free downlosd Free 30-dey trial 


图 B-3 PyCharm 下 载 网 站 


网 络 上 关于 是 否 使 用 1DE 存 在 一 些 争 议 ， 并 且 有 人 表示 “只 使 用 编辑 器 就 好 了 ”。 每 个 人 都 有 自己 的 道理 ， 比 如 1DE 功 能 复杂 ， 入 门 、 使 用 有 着 一 定 的 门槛 ， 这 也 是 笔者 没有 在 本 书 的 一 开始 就 向 读者 介 
绍 IDE 的 原因 ， 怕 把 读者 拒 之 门 外 。 但 是 如 果 读 者 已 经 入 门 了 Python， 并 且 想 要 在 工作 中 使 用 ， 让 工作 更 有 效率 ， 那 么 笔者 推荐 大 家 使 用 IDE。1DE 可 以 方便 快速 调用 模板 、 在 代码 间 跳 转 、 重 构 、 调 试 
(Debug、 测 试 覆 盖 率 、 性 能 调试 、 单 步调 试 ) ， 虽 然 这 些 功 能 在 不 使 用 IDE 时 也 能 够 实现 ， 但 是 需要 频繁 地 切换 命令 行 及 编辑 器 ， 或 者 自己 编写 脚本 用 来 快速 地 调用 某 些 命令 。 既 然 已 经 有 人 把 这 些 事情 
做 好 了 ， 那 么 我 们 直接 拿 来 用 就 行 了 ， 这 也 是 编程 中 “不 要 重复 造 轮子 ”的 哲学 。 


B.3 virtualenv 


在 实际 的 开发 过 程 中 ， 我 们 可 能 会 遇 到 不 同 的 应 用 程序 依赖 不 同 版 本 的 第 三 方 模块 的 情况 (在 Python 中 这 种 情况 极 少 ) ， 而 且 良 好 的 习惯 和 组 织 程序 的 方法 可 以 让 我 们 与 这 种 情况 完全 隔绝 ， 这 是 
virtualenv 的 功能 一 为 每 一 个 正在 开发 的 应 用 创建 一 个 虚拟 环境 ， 并 且 把 依赖 只 安装 在 这 个 虚拟 环境 中 ， 这 样 不 同 应 用 的 依赖 就 可 以 互 不 干扰 了 。virtualenv 有 一 点 像 程序 容器 的 感觉 。 


安装 virtualenv 


无 论 在 哪个 平台 ，virtualenv 的 安装 方法 都 是 一 样 的 : 


$pip install virtualenv 


想 要 创建 一 个 新 的 虚拟 环境 可 以 使 用 下 面 的 命令 : 


$virtualenv new env 


上 面 的 命令 中 ， 我 们 创建 了 一 个 名 为 new_env 的 虚拟 环境 ， 在 启动 这 个 虚拟 环境 之 后 所 有 使 用 pip 安 装 的 Python 第 三 方 包 都 是 专门 为 这 个 环境 安装 的 ， 离 开 了 这 个 环境 这 些 Python 第 三 方 包 就 不 再 有 效 
了 。 为 了 在 命令 行 中 激活 某 个 virtualenv 可 以 使 用 下 面 的 方法 : 


Linux/Mac 平 台 : 


$source new env/bin/activate 


Windows 平 台 [1]: 


>new_env\Scripts\activate.bat 


无 论 在 哪个 平台 上 ， 激 活 了 该 命令 之 后 ， 命 令 行 提示 符 的 前 几 个 字母 都 会 变 成 虚拟 环境 的 名 字 ， 比 如 : 


(new_env) MacBook-Pro:Downloads:$ 


或 者 : 


(new env) C:\Users\jilu> 


括号 中 的 名 字 代表 我 们 当前 的 所 有 操作 属于 哪个 虚拟 环境 ， 此 时 使 用 pip 安 装 的 所 有 Python 第 三 方 库 均 只 存在 于 这 个 虚拟 环境 中 。 


想 要 在 PyCharm 中 使 用 虚拟 环境 也 很 简单 ， 首 先进 入 设置 选项 ，Windows ( 见 图 B-4) 与 Linux/Mac ( 见 图 B-5) 的 设置 有 所 区 别 。 


弹出 的 菜单 则 基本 一 臻 了， 如 图 B-6 所 示 。 


Alt+Insert 


Upen Recent 
Close Project 
Wsetings, C+AHS 

Default Settings... 

Import Settings.., 

Export Settings... 

Settings Repository.,, 

图 Save All Ctrl+S 


6 Synchronize 
Invalidate Caches / Restart 


Fxport to HIML... 

全 print.. Cirl+P 
Add to Favorites > 
Fle Encoding | 
Line Separators 
Make Fle Read-only 
Power Save Mode 
Ent 


图 B-4 Windows 的 设置 选项 
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Ls 


Pro 


‘1 


:早日 


structure 


Quit PyCharm-EAP 拒 Q 


图 B-5 Mac 的 设置 选项 (Linux 与 之 相同 ) 


ate_zhihu_user.py - zhihu._splder dashboard - [~/GitHub/zhihu_spider dashboard] - P arm 2016.2 EAP 
DD zhihu_spider_dashboard [® create_zhihu_user.py 让 create zhihu_userv| 二 大 四 宁 罕 
钱 Project ” 砚 mrojectFiles } 钙 地 | 闲 - 和 区 zhihu_spiderpy x 网 zhihu_data_updatepy x 国 tryAngularshtm x 加 spiderControllerjs x 七 mainAppjs x 隐 databasepy x JR 
辣 : Dzhihu_ spider dashboard ~/GitHub/zhihu_spid # 1 /usr/biny/python 
“” OOOstatc # ~*- Coding: Utf-8 -~ 
广 


» Ocss 


» 门 fonts 
9 hm Q Project zhihu_splider_dashboar~ > Project Interpreter ® For current project 


到 
过 
D 


肌 
PI 
1soH noway MM 


eh i Project Interpreter 哪 2.7.11 (/usr/local/Cellar/python/2.7.11/Frameworks/Python.framework/Versions/2.7/bin/python... v 桨 
国 tryAngular) Keymap 
» js Editor Package Version Uatest 


» Dless Plugins i 
> Oscss » Version Control GE 


sre 
Cython 
B HELP-US-OUT DR 


Drtemplates Django 
> 本 test Project Structure 2 Eve 
ed » Build, Execution, Deployment Events 
client.py 
区 config.py » Languages & Frameworks i 
革 creare_zhihu_usel wTools Flask 
革 database.py Flask-Admin 
区 fetch_user_friend Flask-BrowseriD 
车 fields.py Flask-Cache 
区 my_marshal.py Flask-HTTPAuth 
目 README.md Flask~Login 
目 requirements.txt Flask-~OAuthiib 
区 setup.py Flask-PyMongo 
也 zhihy data unviat Flask-RESTFul 
Run 地 create_zhihu_vse' Flask-SQLAIchemy 
Flask-SSUfy 
13185654559,nr1 Flask~WTF 
Cap_id="Yjc10 Graphiab-Create 
Zap Jinja2 
Togin="Mjc2Mj Mako 
,OAFBALCUfS5gK Markdown 
Z_C8-Hi4wQUZC MarkupSafe 


1 
aseqerq 而 


= 7: Suucture 


全 


15502841838, ll: 一 A 
.cap_id="0DO5Y 
Vl_cap_id="NWY 
<Lza=ce2d7eb5- 9 多 Apply 
Utmc=518543 vtmt=1; » 
login="YWISNGEAMTg LnF KNDGINZ1xXUDN UNmFKUWMZY2ZKM2M=11468121197]1D50139D/6l1Cba9U468200D2497TC5894311CbUeZ ; a_t="27 

4:Run 钢印 TODO 轧 9:VersionControl 塌 PythonConsole Terminal 国 Docker 厂 Eventiog 


SSLException: Connection has been shutdown: javax.net.ssl.SSLException: Java.net.SocketException: Connecdon reset (yesterday 下 午 7:09) 203 LF: 8 Cit masters 
图 B-6 设置 选项 界面 


我 们 可 以 在 “Project:project name” 的 选项 下 面 找到 “Project Interpreter” 的 设置 ， 当 前 的 设置 一 般 是 系统 默认 的 Python 解释 器 ， 点 击 右上 角 的 齿轮 ， 在 下 拉 菜 单 中 选择 “Add local”， 然 后 在 打 


开 的 选择 窗口 中 找到 刚刚 创建 虚拟 环境 的 目录 ， 找 到 Python 解释 器 的 快捷 方式 或 .exe， 贡 
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蝇 5:TODO 现下 Version Control 


SSLException: Connection has been shutdown: javax_netssLSSLException: java.net.SocketException: Connection reset (yesterday 下 午 7:09) 


» x 大 ~ Bzhihu_ spider.py 
v Dzhihu_splder_dashboard 


/CitHub/zhihyu_spid z 
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B-7 所 示 。 
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/Users /jilu/Downloads /new_env/bin/python2,7 
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Bactivate.csh 
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了 activate_this.py 
easy_install 
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席 pip 

防 pipz 
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外 python 

蕊 python-config 
荡 python2 
Bpython27 

防 wheel 
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100% 可， 8 月 5 日 


Create_zhihu User 了 


B® databasepy 


曲 2.7.11 (/usr/local/Cellar/python/2.7.11/Frameworks/Python.framework/Versions/2.7/bin/python... vw 


Pack i, 
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图 B-7 ”增加 新 的 Python 解释 器 
保存 之 后 ， 我 们 就 为 这 个 打开 的 项 目 添加 了 一 个 新 的 虚拟 环境 ， 可 以 看 到 这 个 虚拟 环境 还 没有 安装 额外 的 Python 第 三 方 包 ， 这 里 需要 安装 项 目 必需 的 第 三 方 包 才能 使 用 这 个 虚拟 环境 ， 如 图 B-8 所 示 。 
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SSLException: Connection has been shutdown: Javax.net.ssLSSLException: java.net.SocketException: Connection reset (yesterday 下 午 7:09) 


者 Python Console 


Project zhihu_spider_dashboar~ » Project Interpreter Fort 
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Package 
pip 
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wheel 
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图 B-8 安装 项 目 ， 


urrent project 


咏 2.7.11 virtualeny at ~/Downloads /new_env 


Version 


这 里 有 一 个 快速 安装 第 三 方 包 的 方法 : 先 找到 项 目的 requirements.txt 文 件 然后 在 命令 行 激活 该 虚拟 环境 的 情况 下 执行 : 


(new_env) MacBook-Pro:zhihu spider dashboard:% pip install -r requirements.txt 


Cancel 


Apply 


utmt=1 


183; 2 


aseqeyeqg 到 


篇 Event Log 
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pip install 命 令 中 使 用 -r 加 上 一 个 包含 依赖 的 文件 ， 可 以 递归 地 安装 所 有 必要 的 第 三 方 包 ， 在 本 例 中 requirements.txt 的 内 容 如 下 。 


代码 清单 : requirements.txt 


Flask = 0.10.1 
lxml 一 3.5.0 

pytz = 2016.1 
requests 一 2 
retrying == 1 
six == 1.10.0 
torndb = 0.3 


证 
“3.3 


现在 ，PyCharm 解 释 器 里 面 安装 的 模块 显示 ， 如 图 B-9 所 示 。 


起 PyCharm-EAP File Edit View Navigate Code Refactor Run Tools VCS Window Hep 各 个 国 复 会 上 国人 心间 会 100% 吕 加 8 月 5 日 周 五 11:30 Q : 


DD zhihu_spider_dashboard 障 create_zhih create zhihu user vw jp 和 天 


全 Project project Files » 和 糯 -I 局 zhihu_data updatepy 国 ryAngularShtm 芍 spiderControllerJs mainApp 上 s 篇 datbasepy 防 crete zhihu_user py 
wl TasK_hNStmOm pr 


tryAngular}S.htm 


AS CC 
» Dless Ld S Preferences 


» Oscss Q Project zhihu_spider dashboar- » Project Interpreter WForcurent project Reset 
Dsrc 
B HELP-US-OUT > Appearance & Behavior Project Interpreter 只 2.7.11 virtualeny at ~/Downloads/new_env TY | 可 
Dtemplates Keymap 
test Editor Package Version 
© .gitignore plugins Flask 
房 cllent.py Jinja2 
障 config.py Version Control MarkupSafe 
聊 create_zhihu_use Project zhihu_spider_dashboar. Werkzeug 
车 darabase.py Project Interpreter 下 itsdangerous 
车 fetch_user friend Per lxml 
区 fields - ject Structure pip 
世 my_marshal py 
目 READMEmd Languages & Frameworks 
目 requirements.txt Teo 
障 setup.py 
图 zhihu_dara_updar 
隐 zhihu_get_topic.r 
隐 zhihy_response 
区 zhihu S py 
隐 zhihu_spi er_das 
敬 zhihu_thanks.py 
» 号 External Libraries 
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Build, Execution, Deployment pytz 
requests 
retrying 
setuptools 
Six 

torndb 
wheel 
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站 2: Favorites 


fh 2 Version Contr 澡 Python Consois "inal  @) Docks 态 Event log 
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SSLException: Conmectlon has been Shutdown' javaxnet.55LSSLExCepton: Java .net SocketException: Connection reset (yesterday 下 年 7:09) : Cemaster: Hb 4& 


图 B-9 PyCharm 解 释 器 中 的 模块 安装 页 面 


这 样 安装 第 三 方 模块 是 不 是 非常 方便 呢 ! 把 项 目 中 的 依赖 整理 到 requirements.txt 中 是 一 种 非常 规范 的 管理 项 目的 方式 ， 既 方便 自己 的 维护 ， 也 方便 未 来 其 他 人 的 使 用 。 


B.4 人 小结 


关于 如 何 规范 化 地 开发 Python 程序 ， 还 有 很 多 需要 注意 的 内 容 ， 甚 至 可 以 专门 写 一 本 书 来 阐述 ， 本 章 简 单 介绍 了 一 些 入门 的 内 容 ， 以 及 必要 的 工具 ， 以 减少 读者 在 学 习 过 程 中 的 困难 ， 希 望 这 些 内 容 对 
读者 能 有 帮助 。 


[1 不 要 忘记 在 Windows 平 台 上 ， 目 录 使 用 反 斜 杠 “\” 进 行 分 定 ， 而 在 Linux/Mac 平 台 上 是 使 用 斜 杠 “/” 进 行 分 割 的 。 


附录 C ”常用 的 Python 技巧 


在 学 习 完 Python 的 一 些 基础 内 容 之 后 ， 在 日 常 的 使 用 和 工作 中 总 是 有 一 些 问题 经 常 困扰 着 我 们 ， 本 章 将 会 总 结 一 些 可 能 经 常会 遇 到 的 问题 ， 并 尝试 提供 一 个 直接 有 效 的 解决 方案 ， 希 望 读 者 能 够 因此 节 
约 一 些 时 间 。 


C.1 时 间 格 式 的 转换 


时 间 处 理 可 能 是 除了 字符 串 编码 之 外 ， 最 容易 令 Python 初学 者 陷入 困境 的 部 分 了 ， 笔 者 在 数 次 受 困 于 这 个 问题 之 后 总 结 了 一 些 常用 的 方法 ， 希 望 能 对 读者 有 所 帮助 。 


有 的 时 候 我 们 会 看 到 类 似 "10/Sep/2015:06:47:35 "或 "2015-9-10T06:47:35" 这 样 的 时 间 字 符 串 。 首 先 要 强调 的 是 上 面 两 种 表达 方式 无 论 哪 一 种 都 是 错误 的 表达 方式 ， 因 为 没有 时 区 的 时 间 字 符 串 是 没有 
意义 的 。 让 我 们 来 看 一 下 世界 时 区 分 布 图 ， 如 图 C-1 所 示 。 


从 图 C-1 中 可 以 看 到 整个 世界 被 分 为 12 个 时 区 ， 从 -12~+12， 负 数 代 表 西 时 区 ， 而 正 数 代表 东 时 区 ， 以 英国 的 0 时 区 为 中 心 。 比 如 中 国 的 时 区 可 以 用 +8 来 表示 ， 更 多 的 使 用 +08:00 或 +0800 来 表示 ， 读 
作 “ 东 八 区 ”。 有 些 时 候 我 们 用 CST 时 间 表示 中 国标 准时 间 ["]， 或 者 在 某 些 操作 系统 中 使 用 'Asia/Shanghai' 代 表 东 八 区 。 所 以 正确 的 时 间 字 符 串 应 当 是 "10/Sep/2015:06:47:35+0800" 或 "2015-9- 
10T06:47:35+0800" 的 包含 时 区 的 格式 ， 如 果 不 是 ， 那 么 请 确认 你 得 到 这 份 包含 时 间 数 据 的 语 境 以 确保 知道 其 时 区 ， 因 为 毕竟 不 同时 区 的 同一 时 间 实 际 上 是 不 同 的 时 间 。 


INDIAN 
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图 C-1 世界 时 区 分 布 图 


既然 时 间 字符 串 如 此 麻烦 ， 那 么 为 什么 不 用 一 个 统一 的 方式 来 表达 时 间 呢 ? 确实 ， 时 间 字 符 串 只 是 给 人 看 的 一 种 格式 化 之 后 的 形式 ， 计 算 机 并 不 需要 这 种 复杂 的 格式 ， 所 以 “时 间 戳 ”自然 而 然 地 就 成 
了 计算 机 计算 中 的 主要 格式 。 时 间 戳 的 定义 很 简单 ， 把 UTC 时 间 (0 时 区 ) 的 1970 年 1 月 1 日 零点 零 分 零 秒 当 作 时 间 戳 的 起 点 0， 以 后 每 增加 1 秒 时 间 戳 就 增加 1， 所 以 在 写作 本 章 时 我 的 时 间 戳 是 : 


MacBook-Pro:Downloads:®% Python 

Python 2.7.11 (default, Jan 28 2016, 13:11:18) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> import time 

>>> time.time () 

1471580327.828131 

>>> 


Python 的 时 间 惟 默认 以 秒 为 单位 ， 有 的 系统 其 时 间 惟 是 以 毫秒 为 单位 的 ， 这 时 候 时 间 戳 的 值 小 数 点 还 会 向 后 移 三 位 ， 不 过 这 里 让 我 们 先 以 Python 的 为 基准 。 时 间 戳 对 于 人 类 而 言 是 不 可 读 的 ， 但 是 计 
算 机 处 理 起 来 却 很 方便 ， 并 且 没有 歧义 ， 这 也 是 为 什么 本 节 会 讨论 “时 间 字符 串 转换 时 间 戳 ”这 个 话题 了 ， 我 们 要 把 给 人 看 的 时 间 字 符 串 转换 成 给 机 器 看 的 时 间 戳 ， 后 文 再 讨论 如 何 反 向 转换 。 


为 了 进行 以 下 练习 ， 需 要 读者 安装 pytz 模 块 ， 用 来 处 理 时 区 : 


$pip install pytz 


先 来 看 一 下 如 何 生成 标准 的 CST 时 间 字 符 串 : 


代码 清单 : time_tutorial1.py 


# ! /usr/bin/python 
# -*~ coding: utf-8 -*— 


from _ future ”import print function 
from datetime import datetime 
import pytz 


tz = pytz.timezone ('Asia/Shanghai') 

dt = datetime.utcnow() 

cst time = tz.fromutc (dt) .strftime ('%Y-%m-%d %H:%M:%S%z") 
print (cst time) 


通过 pytz 来 进行 时 区 设 定 ， 然 后 使 用 Python 标准 库 的 datetime.utcnow() 方 法 获取 标准 时 间 的 datetime， 然 后 使 用 pytz 进 行 时 间 格 式 化 ， 其 结果 为 : 


2016-08-19 12:36:03 +0800 


这 里 有 两 个 要 点 需要 注意 ， 第 一 是 时 区 的 英文 名 称 ， 比 如 这 里 使 用 的 ',Asia/Sshanghai'， 我 们 如 何 才能 知道 其 他 地 区 的 时 区 呢 ?可 以 通过 pytz.all_timezones 这 个 属性 获取 。 另 外 就 是 时 间 格式 化 函数 
strftime(0 及 其 参数 %Y-%m-%d%H:%M:%S%z 了 ， 这 个 函数 的 意思 是 将 datetime 类 型 的 时 间 格 式 化 成 其 参数 所 描述 的 格式 ， 在 上 面 的 程序 中 很 明显 地 ，Y 代 表 年 ，m 代 表 月 ，d 代 表 日 ，H 代 表 小 时 ，M 代 


表 分 钟 ，S 代 表 秒 ，z 代 表 时 区 ， 还 有 另外 一 种 格式 稍 后 再 说 ， 感 兴趣 的 读者 可 以 从 这 个 链接 里 获得 全 部 的 字符 代表 的 含义 。 
读者 可 以 轻易 地 生成 任意 格式 的 时 间 字 符 串 ， 只 需要 改变 strftime() 函 数 的 参数 ， 表 C-1 列 出 了 几 种 常见 的 格式 及 样 例 。 


表 C-1 常见 的 时 间 格 式 及 样 例 


格式 
‘V0Y-%m-%d %H:%M:%S%z' 
'%0d/%b/%Y:%H:%M:%S%z 
‘V0Y-%m-%dT%H:%M:%S %z' 


"00c WZ 


样 例 


2016-08-19 12:59:03+0800 
9/Aug/2016:12:59:03+0800 
2016-08-19T12:59:03 +0800 


Fr1 


Aug 19 12:59:03 2016 +0800 


因为 strftime() 函 数 的 灵活 性 及 不 同 编程 语言 对 其 支持 程度 的 不 同 ， 再 加 上 不 同 程序 员 的 习惯 不 同 ， 真 正 的 字符 


说 了 这 么 多 ， 下 面 让 我 们 真正 来 试 着 将 时 间 字 符 串 解析 成 时 间 戳 ， 为 了 运行 下 面 的 代码 ， 需 要 安装 arrow 这 个 第 三 方 库 : 


时 间 是 干 奇 百 怪 的 ， 不 过 只 要 掌握 了 字符 串 格式 的 组 合 方式 ， 真 正 处 理 器 来 也 就 不 难 


$pip install arrow 


代码 清单 : time tutorial2.py 


# ! /usr/bin/python 
# -*- coding:; utf-8 -*-— 


from _ future import print function 
from datetime import datetime 

import pytz 

import time 

import arrow 


tz = pytz.timezone ('Asia/Shanghai') 
dt = datetime.utcnow() 
Print (time.time ()) 


1) 
ss2') .timestamp) 
1 


Sz 
print (cst time, arrow.get (cst time, mm: ssZ') .timestamp) 

cst time = tz.fromutc (dt) .strftime ('%Y-%m-%dT%H :%S %2z') 

print (cst time, arrow.get (cst time, '‘'YYYY-MM-DDTHH:mm:ss 2') .timestamp) 

cst time = tz.fromutc (dt) .strftime ('%c %z') 

print (cst time, arrow.get (cst time, 'ddd MM DD HH:mm:ss YYYY 2') .timestamp) 


1471584240.87 

2016-08-19 13:24:00+0800 1471584240 
19/Aug/2016:13:24:00+0800 1471584240 
2016-08-19T13:24:00 +0800 1471584240 

Fri Aug 19 13:24:00 2016 +0800 1471584240 


有 一 点 稍稍 让 人 感到 困扰 ，arrow 需 要 的 字符 串 格式 化 参数 与 Python 标准 库 datetime 的 不 同 ， 虽 然 看 起 来 大 同 小 异 ， 不 过 还 是 需要 稍微 熟悉 一 下 ， 与 前 文 一 样 ， 感 兴趣 的 读者 请 自行 阅读 详细 的 列表 参 


考 B， 现 在 对 照 表格 如 表 C-2 所 示 。 


表 C-2 atrtow 与 Python 标准 库 datetime 的 对 照 表 


ET FT 


‘0Y-%m-%d WH:%M:%S%z' YYYY-MM-DD HH:mm:ssZ' 


'%d/%b/W%Y:%H: I%M:%S%z DD/MMM/YYYY:HH:mm:ssZ' 
‘0Y-%m-%dT%H:%M:%S %z' YYYY-MM-DDTHH:mm:ss Z' 
"ooc WZ ‘ddd MMM DD HH:mm:ss YYYY Z' Fri Aug 19 12:59:03 2016 +0800 


2016-08-19 12:39:03+0800 
9/Aug/2016:12:59:03+0800 
2016-08-19T12:59:03 +0800 


我 们 已 经 学 习 过 如 何 将 包含 时 区 的 时 间 字 符 串 转换 成 时 间 戳 的 方法 了 ， 反 之 将 时 间 戳 转换 成 时 间 字 符 串 也 很 容易 ， 下 面 的 代码 分 别 使 用 Python 标准 库 和 arrow 两 种 方法 进行 举例 : 


# 标准 库 方案 


t = time.time() 


cst time = tz.fromutc (datetime.utcfromtimestamp (t)) .strftime ('%Y-%m-%d %H:%M:%S %z') 


print (t, cst time) 


# arrow 方 案 
Print (arrow.get (t) .to (tz) .format ('YYYY-MM-DD HH:mm:ss 2')) 


arrow 的 方案 确实 比较 简洁 ， 再 一 次 要 注意 arrow 表 达 格式 的 形式 与 Python 标准 库 的 区 别 。 


C.2 ” 重 试 的 处 理 


有 时 候 我 们 的 代 虫 程序 会 由 于 网 络 问题 而 失败 ， 失 败 之 后 的 处 理 重 试 是 一 件 很 麻烦 的 


$pip install retrying 


情 ， 有 一 个 第 三 方 模块 可 以 很 好 地 处 理 


好 这 个 问题 。 为 了 学 习 以 下 的 内 容 ， 请 安装 Python 第 三 方 模块 retrying : 


使 用 这 个 模块 也 很 简单 ， 我 举 两 个 最 常用 的 例子 : 


# 无 论 出 现任 何 异常 最 多 只 重 试 三 次 
Q@retrying.retry (stop max attempt number=3) 
def fetch _ http (url): 
resp 三 requests.get (url, timeout=10) 
return resp 


def retry if timeout error (exception): 
return isinstance (exception, requests.exceptions.ConnectTimeout) 


# 仅 捕捉 超 时 异常 进行 重 试 
Q@retrying.retry (retry_on exception=retry if timeout error, stop max attempt number=3) 
def fetch http(url): 

resp 三 requests.get (url, timeout=0.0001) 

return resp 


使 用 一 个 装饰 器 来 增强 一 个 函数 的 功能 ， 这 属于 Python 高 级 编程 的 部 分 ， 不 过 即使 不 懂 如 何 编写 复杂 的 装饰 器 ， 但 是 使 用 起 来 还 是 很 容易 的 。 第 一 个 例子 是 无 论 函 数 中 出 现任 何 异 常 最 多 重 试 三 次 。 第 
二 个 例子 是 仅 重 试 三 次 超时 异常 ， 如 果 是 其 他 异常 还 是 会 正常 抛 出 的 。 


C.3 文件 VO 的 处 理 


C.3.1 没有 目录 则 创建 它 


有 时 我 们 将 结果 写 入 文件 时 ， 会 遇 到 所 写 的 路 径 不 存在 的 问题 ， 一 个 简单 的 解决 办 法 是 手动 去 创建 所 需要 的 目录 结果 ， 但 这 不 利于 大 批量 的 创建 文件 ， 笔 者 有 一 个 方便 的 函数 可 以 自动 创建 不 存在 的 路 
径 ， 代 码 如 下 ， 可 供 大 家 参考 : 


import os 
import errno 


def create dir(file path): 
如 果 目 标 目录 不 存在 就 先 创建 它 


if not os.path.exists (os.Path.dqirname (file Path) ) : 
try: 
3 .makedirs (os.path.dirname (file path)) 
except OSError as exc: # Guard against race condition 
if exc.errno != errno.EEXIST: 
raise 
return file path 


使 用 这 个 函数 也 很 简单 : 


with open (create dir('you are path'), 'w') as fw: 
fw.write('new line') 


只 需要 在 open 函 数 中 套用 这 个 函数 ， 这 个 函数 就 会 在 创建 目录 之 后 返回 文件 名 供 open 函 数 使 用 。 


5C.3.2， 读 取 目 录 中 文件 的 每 一 行 


如 果 有 很 多 文件 需要 读 取 ， 并 且 在 不 同 的 文件 夹 中 ， 那 么 在 Python 中 有 一 个 简便 的 方法 可 以 做 到 这 件 事 ， 下 面 是 一 个 例子 : 


from glob import glob 
import fileinput 
import os 


def line generator (path): 
for line in fileinput.input (glob (os.path.abspath (os.path.expanduser (path) ) ) ) : 
yield line 


其 中 path 参 数 是 文件 夹 的 通配符 描述 ， 比 如 在 Downloads/data 文 件 中 所 有 子 文件 夹 中 的 以 .txt 结 尾 的 文件 都 可 以 表达 成 “~/Downloads/data/*/*.txt”， 熟 悉 Linux 通 配 符 表达 式 的 读者 一 看 就 能 明 
白 ， 星 号 代表 任意 字符 ， 称 为 通配符 。 


C.3.3 ”格式 化 JSON 以 便 人 类 阅读 


有 的 时 候 ， 我 们 通过 HTTP 请 求 得 到 JSON 的 数据 ， 如 果 数 据 中 包含 中 文 ， 并 且 很 长 ， 想 要 在 程序 控制 台 看 到 格式 化 好 的 JJON， 那 么 可 以 使 用 下 面 的 方法 打印 JSON : 


import json 


data = {'k': "中 国 "} 
print (json.dumps (data, ensure ascii=False, indent=4)) 


其 输出 的 结果 为 : 


其 中 ，ensure_ascii 参 数控 制 是 否 需要 将 非 ASCIl 字 符 转换 成 AsCll 字 符 ， 因 为 要 打印 中 文 所 以 不 需要 转换 。indent 顾 名 思 义 就 是 缩 进 控制 。 


CE4 水 缚 


关于 Python 的 各 种 技巧 还 有 很 多 种 ， 本 章 只 描述 了 几 种 在 数据 处 理 中 最 常见 的 快捷 方法 ，《Python Cookbook》 一 书 中 记载 了 很 多 前 人 总 结 的 经 验 ， 想 要 精进 的 读者 不 妨 找 来 这 本 书 读 一 读 ， 一 定 会 
有 所 收获 。 


[1] China Standard Time UT+8:00, 但 这 不 是 唯一 的 缩写 ， 美 国 中 部 时 间 (Central Standard Time(USA)UT-6:00) 、 澳 大 利 亚 中 部 时 间 (central Standard Time(Australia)UT+9:30) ， 以 及 古巴 标准 时 间 (Cuba 
Standard Time UT-4:00) 也 都 缩写 为 CST 时 间 。 不 过 如 果 在 中 文 语 境 中 CST 时 间 通 常 是 指 中 国标 准时 ，0 时 区 则 是 UTC 时 间 。 
[2] https://docs.python.org/2/library/ datetime.html#strftime-and-strptime-behavior。 


[3] http://crsmithdev.com/arrow/#tokens 


